Program generatívnej AI na filmovanie Flow od spoločnosti Google dosiahol významný míľnik. Technologický gigant exkluzívne potvrdil pre CNET, že tvorcovia Flow vytvorili viac ako 100 miliónov AI videí v rámci tohto programu. Vďaka pokročilému AI video modelu, Veo 3, Flow umožňuje používateľom generovať video klipy a spojiť ich do scén.
Uplynulo 90 dní, odkedy nás Google prekvapil s Flow na svojom ročnom developerskom konferencii I/O. Podľa Eliasa Romana, senior riaditeľa produktového manažmentu pre Flow v Google Labs, sa väčšina času odvtedy strávila „usilovaním sa len udržať krok s dopytom.“
Flow predstavuje odklon od predchádzajúcej generatívnej AI práce spoločnosti Google. Po celé roky sa úsilie spoločnosti v oblasti AI zameriavalo na Gemini, jej chatbot s viacerými funkciami. Spoločnosť naplnila svoje produkty AI, ako s AI prehľadmi v Search a AI generovanými súhrnmi v Gmaile. Jej nástroj pre výskumných asistentov, NotebookLM, so svojím AI audio generátorom, ktorý dokáže premeniť dokumenty na osobné podcasty, neustále zavádza nové funkcie.
Priekopník v odvetví investoval miliardy dolárov do snahy vyvinúť najpokročilejšiu AI pre priemerných používateľov Google, vývojárov a, áno, aj umelcov a tvorcov. 100 miliónov AI videí je významný míľnik pre spoločnosť a pomáha nám ukázať, aký by mohol vyzerať budúci svet tvorby s podporou AI.
Vstup do AI Flow
Aby sa Google mohol postaviť proti Midjourney a Stable Diffusion, vytvoril radu AI modelov na generovanie obrázkov, pôvodne nazvaných ImageFX a teraz známych ako Imagen (vyslovuje sa „imagine“). Jeho predchádzajúce generatívne modely médií boli lepšie prispôsobené pre amatérskych alebo nadšených tvorcov, nie pre profesionálov, a nedominovali AI kreatívnemu priestoru. To sa však zmenilo s modelom Veo 3.
Google predstavil Veo 3, svoj najnovší AI video model, na konferencii I/O v máji. Veo 3 prekonal konkurenciu s pomerne zrejmým, ale prvým v odvetví pokrokom: AI videá so synchronizovaným, AI generovaným zvukom. Tento model získal obrovskú pozornosť online a Google oznámil viac ako 40 miliónov AI videí len sedem týždňov neskôr.
„To, čo Veo 3 umožnilo, bolo, že mnoho viac ľudí mohlo vytvoriť veľmi presvedčivé videá, ktoré zapájajú všetky zmysly bez dodatočných nástrojov. Nemuseli ste skladať nástroje dohromady,“ povedal Roman. „Možnosť robiť Foley [ambientné zvuky], zvukové efekty, soundtrack, dialóg, to všetko, a nenechať používateľa premýšľať o každej z týchto modality špecifickým spôsobom, myslím, že je to veľké odomknutie.“
Veo 3 je jedným z niekoľkých AI modelov, ktoré môžete použiť v nástroji pre filmárov. Flow bol navrhnutý pre profesionálnych tvorcov a filmárov, čo je krok nad jednoduchú generáciu obrázkov a videí dostupných s Geminim. Google úmyselne odstúpil od svojho pôvodného názvu ImageFX a vybudoval nové rozhranie, povedal Roman, a chcel, aby Flow kombinoval najpokročilejšie modely Imagen a Veo s Geminim, ktoré boli použité pri tréningu Veo a „v podstate hovorí jazykovo rodenú Veo.“
Flow je spôsob, ako skombinovať všetky tieto AI modely a súčasti, spájajúc rôzne generatívne AI modely Google pre bezproblémovú tvorbu a editáciu videí.
Čím sa Flow líši od Veo a Imagen
Flow bol vytvorený s dôrazom na konzistenciu, teda schopnosť udržať vizuálnu identitu z jedného klipu na druhý. Ak máte 90-sekundové video, kde vaša postava pije kávu v kaviarni, nechcete, aby sa dĺžka jej vlasov alebo farba očí menila každých 8 sekúnd medzi scénami. Táto konzistencia je dôležitá pre profesionálne projekty a je ťažké ju dosiahnuť. Roman to nazval „Achillesovou pätou AI videa.“
Flow má niekoľko nástrojov, ktoré vám pomôžu udržať túto konzistenciu, a v mojom teste vám dávajú novú úroveň kontroly nad vašou prácou, ktorá predtým chýbala v nástrojoch AI Googlu. Najlepšie, čo môžem popísať Flow, je vylepšená verzia jednoduchých rozhraní generátorov videí, s možnosťou exportovať viacero klipov do zjednodušenej verzie časovej osi podobnej Premier Pro.
Nástroje AI sa často aktualizujú s nádejou, že sa stanú užitočnejšími pre profesionálnych tvorcov, aj keď cieľová skupina nie je automaticky priťahovaná k ich používaniu. Generatívna AI je kontroverzná téma v kreatívnych odvetviach, najmä pokiaľ ide o hromadnú výrobu textu, obrázkov a videí. Nadšenci AI môžu chváliť kreativitu a rýchlosť AI modelov, ale tvorcovia naďalej vyjadrujú oprávnené obavy o to, ako sa AI trénuje a nasadzuje. Preto vydavatelia a umelci podali žaloby proti AI spoločnostiam za porušenie autorských práv. Preto čelí zamestnanci v priemysloch bohatých na dáta obavám o bezpečnosť zamestnania, keď sa manažéri snažia znížiť náklady.
Ďalším problémom s AI je typ obrazov, ktoré dokáže vytvoriť. Minulý rok používatelia zistili, že Gemini mohol vytvárať obrázky ľudí s farbou pleti v uniformách nacistických vojakov. Google sa ospravedlnil za to, čo spoločnosť nazvala „nepresnosťami v niektorých historických generáciách obrázkov“ a uviedla, že pracuje na zlepšení týchto zobrazení okamžite.
(Pokyny Googlu zakazujú vytváranie zneužívajúceho a nezákonného AI obsahu. Roman povedal, že zlepšovanie vynucovania svojich bezpečnostných politík je podporované technologickými aktualizáciami a skutočným používaním a správami.)
Do budúcnosti Roman povedal, že Flow pracuje na rozšírení schopností Veo 3, zlepšení konzistencie a pridávaní nových funkcií, ako sú prispôsobené hlasy pre postavy. Hlavným cieľom projektu je sprístupniť tvorbu širšiemu okruhu ľudí.
„Môžeme znížiť prekážky, ktoré bránia mnohým ľuďom rozprávať príbehy prostredníctvom videa, a môžeme zvýšiť maximum toho, aké príbehy môžu byť rozprávané prostredníctvom videa,“ povedal Roman. „Niektoré z nich budú vtipné a bláznivé, ako divoké pouličné rozhovory alebo Yeti ASMR bloggeri, a niektoré budú naozaj mocné.“
Ako používať Google Flow na AI videá
Flow, ktorý je súčasťou Google Labs a je dostupný prostredníctvom jeho AI Test Kitchen, je k dispozícii platným Google AI predplatiteľom v jeho $20 mesačnom Pro pláne a $250 mesačnom Ultra pláne (aktuálne zľavnené na $125 na tri mesiace). Oznámenie o ochrane súkromia Google Labs uvádza, že „ľudskí hodnotitelia čítajú, anotujú a spracovávajú“ vaše interakcie v Laboratóriách a výstupy nástrojov na zlepšenie svojich AI modelov. (Vaše údaje z Laboratórií sú uchovávané až 18 mesiacov ako predvolené, a spoločnosť odporúča, aby ste nenahrávali alebo neposielali dôverné informácie. Všeobecné centrum ochrany súkromia Googlu má viac informácií.)
Strávil som nejaký čas testovaním Flow, generovaním klipov a ich spájaním pomocou jeho scenebuilderu. Niekoľko nástrojov je dostupných iba pre používateľov Flow.
Ingrediencie na video: Existuje niekoľko spôsobov, ako môžete podnietiť generovanie video klipov, vrátane samozrejmého text-to-video a image/frames-to-video. Ingrediencie na video je nový prístup, ktorý stojí za preskúmanie. S týmto spôsobom nahráte konkrétne obrázky a pridáte textový príkaz, a Flow ich spojí dohromady. Napríklad, môžete nahrať obrázok muža, produktovú fotografiu konkrétnej bundy a scenický pozadie, a potom Flow ich môže skombinovať a animovať video.
Predĺženie klipov a vyhladenie prechodov: Extend vám môže pomôcť predĺžiť klipy. V časovej osi scenebuilderu potiahnite koniec rámca jedného klipu na požadovanú dĺžku. Ak chcete generovať nové video a chcete hladký prechod, odporúčam prejsť na koniec prvého klipu a stlačiť tlačidlo plus na vrchu značky, aby ste uložili posledný rámec do svojej knižnice. Potom môžete tento obrázok použiť v príkaze frames-to-video na udržanie konzistencie z klipu na klip.
Kreslenie a úpravy: Ak upravujete rámec alebo obrázok v samostatnom dokumente, môžete nahrať svoj upravený obrázok do Flow a požiadať model, aby implementoval zmeny. To isté môžete urobiť aj s obrázkami, ktoré ste nakreslili, a môže oživiť tieto kresby. Toto je vyvíjajúca sa funkcia – nový prototyp na to je momentálne v príprave – ale je určite zábavné posúvať schopnosti Flow týmto spôsobom.
Podnety s Geminim: Nie je možné, aby Gemini automaticky vytváral a/alebo zlepšoval vaše podnety priamo vo Flow (niečo, čo dúfam, že sa zmení v budúcej aktualizácii), ale môžete použiť chatbot na pomoc pri vytváraní dokonalého podnetu. Ak máte problémy s oživením detailne orientovaných myšlienok, skúste nechať Geminimu pomôcť.
Pre viac informácií si pozrite www.cnet.com
