Notebookcheck Logo

Nowe narzędzie AI o otwartym kodzie źródłowym umożliwia znacznie dłuższe i bardziej spójne generowanie wideo

Obraz żyrafy wygenerowany przez sztuczną inteligencję
ⓘ Gemini
Obraz żyrafy wygenerowany przez sztuczną inteligencję
Naukowcy ze Szwajcarskiego Federalnego Instytutu Technologii w Lozannie (École polytechnique fédérale de Lausanne) opracowali nowy system o nazwie Stable Video Infinity (SVI), aby poradzić sobie z dryfowaniem w modelach generowania wideo.
AI Science Open Source

Jeśli korzystali Państwo z modeli generowania wideo, jest jedna rzecz, która jest spójna - są one ograniczone do krótkich klipów, zwykle od 5 do 20 sekund. Powodem tego ograniczenia jest coś, co nazywa się "dryfem" Dryf powoduje, że sceny i postacie coraz bardziej tracą swoje cechy klatka po klatce, co skutkuje niespójnym wynikiem w czasie.

Teraz, aby rozwiązać ten problem, naukowcy z laboratorium Visual Intelligence for Transportation (VITA) EPFL opracowali nową metodę szkolenia zwaną "przekwalifikowaniem przez recykling błędów" Zamiast odrzucać usterki i deformacje, które naturalnie pojawiają się podczas generowania, podejście to celowo wprowadza je z powrotem do modelu.

Prof. Alexandre Alahi porównuje ten proces do "szkolenia pilota przy burzliwej pogodzie, a nie przy czystym, błękitnym niebie" Ucząc się na własnych błędach, sztuczna inteligencja staje się wystarczająco odporna, aby ustabilizować się, gdy błędy nieuchronnie się pojawią, zamiast popadać w losowość.

Metoda ta napędza nowy system Stable Video Infinity (SVI). W przeciwieństwie do obecnych modeli, które często rozpadają się po 30 sekundach, SVI może generować spójne, wysokiej jakości filmy trwające kilka minut lub dłużej. System już robi furorę w społeczności technologicznej; jego otwarty kod źródłowy na GitHub zdobył ponad 2000 gwiazdek, a badania zostały zaakceptowane do prezentacji na Międzynarodowej Konferencji na temat Reprezentacji Uczenia się (ICLR) w 2026 roku.

Zespół debiutuje również w LayerSync, metodzie towarzyszącej, która pozwala sztucznej inteligencji korygować swoją wewnętrzną logikę w zakresie generowania wideo, obrazu i dźwięku. Razem narzędzia te obiecują zaprojektować lepsze systemy autonomiczne i uwolnić potencjał prawdziwie długich mediów generatywnych.

Źródło(a)

Please share our article, every link counts!
Mail Logo
> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2026 02 > Nowe narzędzie AI o otwartym kodzie źródłowym umożliwia znacznie dłuższe i bardziej spójne generowanie wideo
Chibuike Okpara, 2026-02-10 (Update: 2026-02-10)