Notebookcheck Logo

Google prezentuje generatywną sztuczną inteligencję Lumiere do tworzenia bardziej realistycznych obrazów i filmów z tekstu

Google prezentuje Lumiere - najnowszą generatywną sztuczną inteligencję, która tworzy realistyczne klipy wideo z tekstu. (Źródło: Google Research)
Google prezentuje Lumiere - najnowszą generatywną sztuczną inteligencję, która tworzy realistyczne klipy wideo z tekstu. (Źródło: Google Research)
Firma Google zaprezentowała Lumiere - najnowsze rozwiązanie do realistycznego generowania tekstu na obraz i tekstu na wideo przy użyciu uczenia maszynowego. Kluczową innowacją jest możliwość tworzenia realistycznego ruchu, takiego jak chodzenie, z którym obecne generatywne SI mają trudności. Oprogramowanie robi to, tworząc wszystkie klatki wideo jednocześnie, zamiast używać klatek kluczowych i treningu, aby dowiedzieć się, jak powinny wyglądać poruszające się obiekty.
AI

Google zaprezentowało Lumiere, najnowocześniejsze rozwiązanie w zakresie realistycznego generowania tekstu na obraz i wideo. Oprogramowanie znacznie poprawia ruch, wykorzystując nowatorskie podejście do generowania klatek wideo, które tworzy wszystkie klatki w jednym przejściu, aby złagodzić błędy ruchu.

Generatywna sztuczna inteligencja obrazu tworzy obrazy z tekstu. Jednym z kluczy umożliwiających to jest ogromna ilość obrazów i filmów online dostępnych do treningu. Innym jest opracowanie metod kojarzenia ze sobą wszystkich słów w języku za pomocą wektorów. Dlatego sztuczna inteligencja może zrozumieć, że para słów lub w zdaniu "jestem" jest bardziej prawdopodobna niż "jednostronnie". Sztuczna inteligencja tworząca obrazy, taka jak Stable Diffusion, kojarzy słowa z obrazami obiektów. Taka sztuczna inteligencja rozumie, że słowa "rezydencja królewska" są ściślej powiązane z obrazem "zamku" niż z obrazem "domu".

Generatywna sztuczna inteligencja wideo rozszerza sztuczną inteligencję obrazu, aby tworzyć filmy z tekstu. Konkurenci Lumiere najpierw tworzą klatki kluczowe, a następnie klatki pomiędzy nimi. Przypomina to sytuację, w której mistrz animacji rysuje początkowy i końcowy obraz rzutu do kosza, a następnie zleca asystentowi narysowanie obrazów pomiędzy nimi. Problem polega na tym, że często pojawiają się błędy ruchu, ponieważ obrazy pomiędzy nimi nie są rysowane poprawnie, więc Lumiere omija ten problem, tworząc wszystkie klatki wideo bez klatek kluczowych. Ponadto, Lumiere jest przeszkolony w zakresie tego, jak wyglądają poruszające się obiekty przy różnych rozmiarach obrazu, dzięki czemu jego filmy wyglądają lepiej.

Z technicznego punktu widzenia Lumiere wykorzystuje dyfuzyjne modele probabilistyczne do generowania obrazów w połączeniu z przestrzenno-czasową siecią U-Net, architekturą sieci U-net z czasowym skalowaniem w górę i w dół oraz blokami uwagi dodanymi do zwykłego skalowania rozdzielczości obrazu. Skalowanie w dół jednocześnie z rozdzielczością znacznie zmniejsza obciążenie obliczeniowe, podczas gdy skalowanie w górę w połączeniu z czasowo świadomym, przestrzennym modelem superrozdzielczości generuje wynik o wysokiej rozdzielczości. Mimo to segmentacja klatek obrazu jest wymagana ze względu na ograniczenia pamięci, więc Multidiffusion jest używany na nakładających się granicach segmentów klatek, aby pomóc złagodzić czasowe artefakty ruchu.

Lumiere można połączyć z innymi sztucznymi inteligencjami, aby uzyskać szerszy zakres wyników. Obejmuje to:

  • Cinemagraphs - jedna sekcja obrazu jest animowana
  • Inpainting - jeden obiekt w filmie jest zastępowany innym
  • Stylizowane generowanie - wygląd jest odtwarzany w innym stylu artystycznym
  • Obraz-wideo - żądany obraz jest animowany
  • Video-to-video - filmy są odtwarzane w innym stylu artystycznym

Długość wideo jest ograniczona do 5 sekund, a możliwość tworzenia przejść wideo i wielu kątów kamery nie istnieje. Czytelnicy zainteresowani eksperymentowaniem z generatywną sztuczną inteligencją na swoich komputerach stacjonarnych powinni uaktualnić do potężnej karty graficznej(takiej jak ta w Amazon), aby uzyskać najlepszą wydajność podczas treningu.

Lumiere może tworzyć obrazy i filmy z tekstu, stylizowane na inną sztukę, a nawet zastępować obiekty. (Źródło: Google Research)
Lumiere może tworzyć obrazy i filmy z tekstu, stylizowane na inną sztukę, a nawet zastępować obiekty. (Źródło: Google Research)
Lumiere może animować część obrazu, a dane wyjściowe można łatwo wprowadzić do innej sztucznej inteligencji. (Źródło: Google Research)
Lumiere może animować część obrazu, a dane wyjściowe można łatwo wprowadzić do innej sztucznej inteligencji. (Źródło: Google Research)
Please share our article, every link counts!
> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2024 01 > Google prezentuje generatywną sztuczną inteligencję Lumiere do tworzenia bardziej realistycznych obrazów i filmów z tekstu
David Chien, 2024-01-31 (Update: 2024-01-31)