VIDEO: Dr. Tali Dekel van het Weizmann Institute of Science richt zich op de verborgen mogelijkheden van bestaande grootschalige deep-learning-modellen

Screenshot YouTube

Dr. Tali Dekel van Weizmann, een van 's werelds toonaangevende onderzoekers op het gebied van generatieve AI, richt zich op de verborgen mogelijkheden van bestaande grootschalige deep-learning-modellen. Haar onderzoek bij Google leidde tot de ontwikkeling van de onlangs onthulde Lumiere.

Nog maar een paar jaar geleden hadden we ons nauwelijks kunnen voorstellen dat miljoenen mensen over de hele wereld toegang zouden hebben tot gebruiksvriendelijke generatieve AI-toepassingen die teksten, afbeeldingen en video’s produceren. Deze apps kunnen resultaten genereren die eruit zien alsof ze door mensen zijn gemaakt, maar ook dingen creëren die in werkelijkheid nooit hebben bestaan.

De snelle vooruitgang in de mogelijkheden van grote taalmodellen, die na decennia van ontwikkeling complexe en redelijk geloofwaardige teksten zijn gaan genereren, verraste zelfs experts. Als gevolg hiervan ging de aandacht ook uit naar modellen die tekst combineren met visuele gegevens zoals afbeeldingen en video's, en hun ontwikkeling verliep in een stroomversnelling. Nu kunnen deze modellen realistische video's genereren van een drukke straat in de stad of van een eekhoorn die op de maan loopt. Het enige wat de gebruiker hoeft te doen is een korte tekstuele beschrijving of afbeeldingen in te voeren die als visuele bron kunnen dienen. Naast deze verbazingwekkende mogelijkheden en de daarmee gepaard gaande zorgen over de gevaren die inherent zijn aan zulke krachtige computers, is het operationele bereik van deep learning-netwerken echter nog steeds beperkt – vooral als het om video gaat – en dit is de uitdaging waar veel onderzoekers mee te maken hebben.

Dr. Tali Dekel.. Foto Weizmann

Het team in het laboratorium van Dr. Tali Dekel voor de studie van computer vision op de afdeling Computerwetenschappen en Toegepaste Wiskunde van het Weizmann Institute of Science hoopt de beperkingen van deze generatieve machines te overwinnen en ze naar het menselijke niveau te brengen – of zelfs daarbuiten . "Ik definieer ons onderzoeksgebied als het 'opnieuw weergeven van de werkelijkheid', met andere woorden: het opnieuw creëren van de visuele wereld met behulp van computerhulpmiddelen", zegt ze. “We analyseren afbeeldingen en video’s en concentreren ons op hun specifieke aspecten, en dan creëren we een nieuwe versie met andere kenmerken. Mijn doel is om de manier waarop we de wereld zien te verbeteren, om ons meer creativiteit en zelfs een nieuw soort interactie met de visuele data te geven.”

Dekel voegt hieraan toe: “Ons onderzoek roept fascinerende vragen op, zoals: wat leert een generatief model over de wereld en hoe codeert het deze informatie? Hoe kunnen we visuele informatie effectief weergeven in ruimte en tijd, zodat we deze kunnen aanpassen, zodat we uiteindelijk via video’s met onze dynamische wereld kunnen communiceren?”

Naast haar werk bij het Weizmann Instituut is Dekel ook onderzoeker bij Google. Terwijl haar studie bij Weizmann zich richt op het overwinnen van de beperkingen van bestaande AI-modellen, omvat haar werk bij Google het ontwikkelen van nieuwe modellen, zoals het baanbrekende tekst-naar-video-model Lumiere, waarvan de resultaten onlangs aan het publiek zijn onthuld. Lumiere kan met behulp van een korte tekstuele prompt of referentiefoto een rijk en indrukwekkend videoaanbod produceren of bestaande video's bewerken. Het model genereerde bijvoorbeeld een serie video's van een vrouw die door een park rent en veranderde haar in een figuur gemaakt van houten blokken, kleurrijke speelgoedstenen of zelfs bloemen. Toen Lumiere een afbeelding te zien kreeg van een oude stoomtrein die rook uitblaast op een spoorlijn en onderzoekers het deel van de afbeelding met de rook benadrukten, creëerde het model een gedeeltelijk geanimeerd beeld waarin alleen de rook bewoog. Dit gebeurde op een zeer realistische manier, waarbij de rest van het beeld ongewijzigd bleef. Onderzoekers hadden zelfs een beetje plezier met Lumiere, door hem te vragen een gapende Mona Lisa te genereren en een glimlach op het gezicht van het meisje te toveren in Vermeers Meisje met de parel .

“Lumiere [is] een tekst-naar-video-diffusiemodel dat is ontworpen voor het synthetiseren van video’s die realistische, diverse en coherente bewegingen weergeven – een cruciale uitdaging in videosynthese”, aldus het artikel dat werd gepubliceerd door onderzoekers , waaronder Dekel, toen ze de nieuwe versie onthulden. model. Lumiere is uniek in zijn vermogen om een complete reeks frames te genereren zonder gaten ertussen, terwijl eerdere modellen begonnen met het genereren van verre keyframes op ruimte-tijdschaal en pas daarna de beweging tussen de keyframes invulden. Dit is de reden waarom eerdere modellen moeite hadden met het genereren van overtuigende, natuurlijke bewegingen; Lumiere kan volledige bewegingssequenties van hoge kwaliteit genereren.

Maar hoe doen deep learning-modellen hun magie? Zelfs wetenschappers weten het niet helemaal zeker. “Het hele veld van generatieve AI ondergaat een paradigmaverschuiving”, legt Dekel uit. “In het niet zo verre verleden waren deze modellen een stuk kleiner, eenvoudiger en ontworpen om specifieke taken uit te voeren, waarbij ze meestal gebruik maakten van getagde gegevens. Om een computer bijvoorbeeld te leren objecten in een afbeelding te herkennen, moesten we hem een reeks afbeeldingen presenteren waarin die objecten waren getagd en hem uitleggen dat dit een auto is, dit een kat, enzovoort. Nu zijn de modellen gegroeid en kunnen ze leren van enorme hoeveelheden gegevens zonder menselijke tags. De modellen krijgen een universele representatie van de visuele wereld die ze voor uiteenlopende taken kunnen gebruiken, niet alleen voor het specifieke doel waarvoor ze oorspronkelijk zijn opgeleid.” En hoewel de verbetering in het zelflerende vermogen van deze modellen duidelijk is, weten we nog steeds niet precies hoe ze werken. “Grote delen van neurale netwerken vormen voor ons een soort ‘black box’”, voegt Dekel toe.

Dit raadsel is vooral lastig als je te maken hebt met videogenererende modellen, aangezien elke seconde video uit ongeveer 25 verschillende afbeeldingen bestaat. Met name de meeste grootschalige tekst-naar-video-modellen zijn erg ingewikkeld, vereisen een enorme rekenkracht en zijn getraind op grote hoeveelheden gegevens. Dit betekent dat de omvang van de computernetwerken en de computationele uitdagingen waarmee ze worden geconfronteerd nog groter zijn dan die van de modellen die teksten of afbeeldingen creëren – en het bereik van de ondoordringbare werking van de modellen wordt dienovereenkomstig groter.

Links: Een afbeelding van een stel in een keuken. Rechts: Een afbeelding gemaakt door een AI-model, voorzien van de afbeelding links en de volgende prompt: “twee robots die dansen in de keuken.” Het model slaagde erin robots te genereren in realistische en geloofwaardige poses, staande in posities die vergelijkbaar waren met het stel in de originele afbeelding. Foto Weizman

Voor Dekel bieden de ‘zwarte dozen’ binnen deze modellen uitstekende onderzoeksmogelijkheden. “Tijdens het zelfleerproces verwerven de modellen een enorme hoeveelheid informatie over de wereld. Als onderdeel van ons onderzoek naar het opnieuw weergeven van de werkelijkheid met behulp van digitale hulpmiddelen, proberen we andere resultaten te produceren op basis van bestaande modellen, vrijwel zonder deze überhaupt te veranderen. In plaats daarvan proberen we beter te begrijpen hoe ze werken, terwijl we proberen nieuwe taken te ontdekken die ze kunnen voltooien”, zegt Dekel over onderzoek dat ze uitvoerde met Weizmann-collega Dr. Shai Bagon, Dr. Yoni Kasten van NVIDIA Research en Weizmann-studenten Omer Bar-Tal, Narek Tumanyan, Michal Geyer, Rafail Fridman en Danah Yatim.

Onderzoekers in het laboratorium van Dekel zijn ook op zoek naar geavanceerde methoden voor het verwerken van video's, waaronder het opsplitsen van de inhoud in eenvoudiger componenten, zoals een afbeelding die de achtergrond van een video presenteert en andere afbeeldingen, die elk objecten weergeven die in de loop van de video veranderen. de video. Deze scheiding maakt het bewerkingsproces veel eenvoudiger: in plaats van een enorm aantal pixels te verwerken, bewerkt het model slechts één afbeelding en veranderen alle andere frames dienovereenkomstig. Als bijvoorbeeld de kleur van een jurk in één frame verandert, weet het model die verandering gedurende de hele video door te voeren, waardoor de continuïteit wordt gewaarborgd. Een andere uitdaging waarmee onderzoekers worstelen is het feit dat veel door modellen gegenereerde afbeeldingen en video's er niet realistisch uitzien en objecten presenteren die anders bewegen dan verwacht zou worden op basis van onze praktijkervaring.

Als onderdeel van hun inspanningen om de modellen te leren hoe ze video's kunnen genereren waarin beweging consistent en logisch is, lieten Dekel en haar team zien hoe de mogelijkheden van tekst-naar-beeld-modellen kunnen worden uitgebreid, zodat ze ook video's kunnen genereren en bewerken. Ze voerden bijvoorbeeld een video in van een wolf die zijn kop heen en weer beweegt in een open-sourcemodel genaamd Stable Diffusion en vroegen hem om een soortgelijke video te genereren waarin een wolfachtige lappenpop te zien was. In eerste instantie creëerde het model een video die laggy en onrealistisch was, omdat elke afbeelding in de video anders werd bewerkt. Maar door beter te begrijpen hoe het model de beelden verwerkt en representeert tijdens het bewerken, slaagden de onderzoekers erin om alle frames op dezelfde manier te bewerken, wat resulteerde in een video waarin de wolvenpop op natuurlijke en overtuigende wijze bewoog.

Afbeeldingen gemaakt door Google's Lumiere: een gapende Mona Lisa en een panda die een auto besturen. Foto Weizmann

Dekel ontving onlangs een European Research Council Starting Grant van € 1,5 miljoen, een prestigieuze hulpbron voor jonge wetenschappers. Ze is van plan de subsidie te gebruiken om andere beperkingen van de modellen die video's genereren en bewerken verder aan te pakken. Omdat videoverwerking zo'n complexe taak is, gaapt er een aanzienlijke kloof tussen de kennis die een model al heeft verzameld uit de vele video's waarop het is getraind en de specifieke bewegingskenmerken in een bepaalde video die het model moet genereren. Dekel zal proberen een model te ontwikkelen dat meer kan leren over wat het moet doen met een specifieke video, op basis van de ervaring die het heeft opgedaan met duizenden andere video's.

Hoe zit het met de zorgen over de enorme macht die deze modellen bezitten? “Er bestaat een delicaat evenwicht tussen je bewust zijn van de potentiële risico’s van een technologie en deze verder willen ontwikkelen”, zegt Dekel. “Onze inzet is om dat evenwicht te waarborgen. Voor het grote publiek lijkt het soms dat deze modellen almachtig zijn, maar dat is op dit moment niet het geval. Mijn belangrijkste doel als onderzoeker is om de creatieve mogelijkheden die ieder van ons heeft uit te breiden, inclusief mensen die geen professionals zijn, en om de wetenschap en het computationele vermogen om de wereld te zien te bevorderen.”

VIDEO: Dr. Tali Dekel van het Weizmann Institute of Science richt zich op de verborgen mogelijkheden van bestaande grootschalige deep-learning-modellen

Recente blogposts

Comments