Nowe narzędzie AI o otwartym kodzie źródłowym umożliwia znacznie dłuższe i bardziej spójne generowanie wideo

Jeśli korzystali Państwo z modeli generowania wideo, jest jedna rzecz, która jest spójna - są one ograniczone do krótkich klipów, zwykle od 5 do 20 sekund. Powodem tego ograniczenia jest coś, co nazywa się "dryfem" Dryf powoduje, że sceny i postacie coraz bardziej tracą swoje cechy klatka po klatce, co skutkuje niespójnym wynikiem w czasie.
Teraz, aby rozwiązać ten problem, naukowcy z laboratorium Visual Intelligence for Transportation (VITA) EPFL opracowali nową metodę szkolenia zwaną "przekwalifikowaniem przez recykling błędów" Zamiast odrzucać usterki i deformacje, które naturalnie pojawiają się podczas generowania, podejście to celowo wprowadza je z powrotem do modelu.
Prof. Alexandre Alahi porównuje ten proces do "szkolenia pilota przy burzliwej pogodzie, a nie przy czystym, błękitnym niebie" Ucząc się na własnych błędach, sztuczna inteligencja staje się wystarczająco odporna, aby ustabilizować się, gdy błędy nieuchronnie się pojawią, zamiast popadać w losowość.
Metoda ta napędza nowy system Stable Video Infinity (SVI). W przeciwieństwie do obecnych modeli, które często rozpadają się po 30 sekundach, SVI może generować spójne, wysokiej jakości filmy trwające kilka minut lub dłużej. System już robi furorę w społeczności technologicznej; jego otwarty kod źródłowy na GitHub zdobył ponad 2000 gwiazdek, a badania zostały zaakceptowane do prezentacji na Międzynarodowej Konferencji na temat Reprezentacji Uczenia się (ICLR) w 2026 roku.
Zespół debiutuje również w LayerSync, metodzie towarzyszącej, która pozwala sztucznej inteligencji korygować swoją wewnętrzną logikę w zakresie generowania wideo, obrazu i dźwięku. Razem narzędzia te obiecują zaprojektować lepsze systemy autonomiczne i uwolnić potencjał prawdziwie długich mediów generatywnych.
Źródło(a)
SVI przez Tech Xplore






