top of page

Onderzoekers van de Bar-Ilan Universiteit en NVIDIA verbeteren het vermogen van AI om ruimtelijke instructies te begrijpen

  • Foto van schrijver: Joop Soesan
    Joop Soesan
  • 9 uur geleden
  • 2 minuten om te lezen

Foto's Bar-Ilan Universiteit


Onderzoekers van de afdeling Computerwetenschappen van de Bar-Ilan Universiteit en van NVIDIA's AI-onderzoekscentrum in Israël hebben een nieuwe methode ontwikkeld die de manier waarop AI-modellen ruimtelijke instructies begrijpen bij het genereren van afbeeldingen aanzienlijk verbetert – zonder de modellen zelf opnieuw te trainen of aan te passen.


Systemen voor het genereren van afbeeldingen hebben vaak moeite met eenvoudige aanwijzingen zoals "een kat onder de tafel" of "een stoel rechts van de tafel", waarbij objecten vaak verkeerd worden geplaatst of ruimtelijke relaties volledig worden genegeerd. Het onderzoeksteam van Bar-Ilan heeft een creatieve oplossing geïntroduceerd waarmee AI-modellen dergelijke instructies nauwkeuriger en in realtime kunnen opvolgen.


De nieuwe methode, genaamd Learn-to-Steer, werkt door de interne aandachtspatronen van een model voor het genereren van afbeeldingen te analyseren, waardoor inzicht wordt verkregen in hoe het model objecten in de ruimte organiseert. Een lichtgewicht classifier stuurt vervolgens subtiel de interne processen van het model tijdens het genereren van afbeeldingen, waardoor het objecten preciezer kan plaatsen volgens de instructies van de gebruiker. De aanpak kan worden toegepast op elk bestaand getraind model, waardoor kostbare hertraining overbodig wordt.


De resultaten tonen aanzienlijke prestatieverbeteringen. In het Stable Diffusion SD2.1-model steeg de nauwkeurigheid in het begrijpen van ruimtelijke relaties van 7% naar 54%. In het Flux.1-model verbeterden de succespercentages van 20% naar 61%, zonder negatieve gevolgen voor de algehele prestaties van de modellen.


"Moderne modellen voor beeldgeneratie kunnen verbluffende beelden creëren, maar ze hebben nog steeds moeite met elementair ruimtelijk inzicht", aldus prof. Gal Chechik van de afdeling Informatica aan de Bar-Ilan Universiteit en NVIDIA. "Onze methode helpt modellen om ruimtelijke instructies nauwkeuriger op te volgen, terwijl hun algemene prestaties behouden blijven."


Sapir Yiflach, hoofdonderzoeker en co-auteur van de studie samen met prof. Chechik en dr. Yuval Atzmon van NVIDIA, legt uit: "In plaats van aan te nemen dat we weten hoe het model zou moeten denken, lieten we het ons leren. Hierdoor konden we de redenering in realtime sturen, in feite de denkpatronen van het model lezen en bijsturen om nauwkeurigere resultaten te produceren."


De bevindingen bieden nieuwe mogelijkheden voor het verbeteren van de beheersbaarheid en betrouwbaarheid van door AI gegenereerde visuele content, met potentiële toepassingen in ontwerp, onderwijs, entertainment en mens-computerinteractie.


Het onderzoek wordt in maart gepresenteerd op de WACV 2026-conferentie in Tucson, Arizona.

 
 
 

Opmerkingen


Met PayPal doneren
bottom of page