OpenAI oficjalnie zaprezentowało Sora 2, swój najnowszy flagowy model do generowania wideo i audio, pozycjonując go jako duży krok naprzód w tworzeniu treści opartych na sztucznej inteligencji. Nowy model oferuje bardziej realistyczną fizykę, większą kontrolę i wprowadza zsynchronizowane dialogi i efekty dźwiękowe otoczenia, wprowadzając nowy poziom immersji do treści generowanych przez sztuczną inteligencję. Sora 2 debiutuje wraz z nową aplikacją społecznościową Sora, mającą na celu zmianę sposobu interakcji ludzi z mediami generowanymi przez sztuczną inteligencję. Wdrażanie rozpoczyna się dziś, 30 września 2025 r., w Stanach Zjednoczonych i Kanadzie.
OpenAI opisuje oryginalną aplikację Sora (wydany na początku 2024 r.) jako kluczowy krok dla generatywnego wideo - podobny do wpływu GPT-1 na przetwarzanie języka naturalnego. Z kolei Sora 2 jest opisywana jako osiągnięcie "momentu GPT-3.5" dla wideo, wyznaczając nową poprzeczkę dla zrozumienia przez sztuczną inteligencję rzeczywistości fizycznej i symulacji świata.
Według OpenAI, Sora 2 stanowi krok naprzód w możliwościach "symulacji świata". Podczas gdy wcześniejsze systemy często naginały rzeczywistość, aby spełnić podpowiedź, Sora 2 została zaprojektowana tak, aby modelować wiarygodne wyniki - w tym chybienia i odbicia w scenie koszykówki - zamiast teleportować obiekty, aby pasowały do scenariusza. Model ten może teraz renderować scenariusze, które w przeszłości stanowiły wyzwanie dla poprzednich systemów, takie jak rutyny gimnastyczne na poziomie olimpijskim, dokładne salta w tył na wodzie, które modelują dynamikę pływalności i sztywności, a nawet potrójny axel, podczas gdy kot trzyma się życia. Te postępy dotyczą również dźwięku systemu: Sora 2 generuje pejzaże dźwiękowe w tle, zsynchronizowaną mowę i efekty dźwiękowe, które płynnie dostosowują się do akcji na ekranie, dodając nowy wymiar realizmu.
Najważniejszą funkcją jest możliwość "wgrania siebie" Użytkownicy mogą nagrać krótką próbkę wideo i audio, dzięki czemu Sora 2 może wstawić ich (lub znajomych, zwierzęta i dowolne obiekty ze świata rzeczywistego) do dowolnej wygenerowanej sceny z bardzo dokładną reprezentacją wizualną i głosową.
Aby zademonstrować możliwości Sora 2, OpenAI uruchamia nową aplikację na iOS o nazwie Sora. Aplikacja umożliwia użytkownikom tworzenie i remiksowanie krótkich filmów, odkrywanie treści społeczności w dostosowywanym kanale i występowanie w scenach generowanych przez sztuczną inteligencję dzięki funkcji "cameos". Kamee wymagają krótkiego procesu weryfikacji, aby zapewnić kontrolę i zgodę użytkownika, z pełnymi opcjami prywatności i usuwania treści.
OpenAI pozycjonuje nową aplikację Sora jako nastawioną na tworzenie, a nie na maksymalizację zaangażowania. Domyślny kanał nadaje priorytet osobom, które użytkownik obserwuje i treściom, które mogą inspirować jego własne kreacje; firma twierdzi, że nie optymalizuje czasu spędzonego w aplikacji. Konta nastolatków otrzymują dzienne limity wyświetleń kanału i bardziej rygorystyczne uprawnienia do kamei, podczas gdy kontrola rodzicielska (za pośrednictwem ChatGPT) pozwala na takie zmiany, jak wyłączenie personalizacji algorytmicznej lub ograniczenie nieskończonego przewijania. OpenAI zwiększa również ludzką moderację, aby przeciwdziałać nękaniu i innym zagrożeniom związanym z nadużyciami.
Sora 2 debiutuje dziś w Stanach Zjednoczonych i Kanadzie, z planami rozszerzenia na kolejne regiony. Aplikacja jest uruchamiana wyłącznie na zaproszenie, aby zachęcić do współpracy między znajomymi. Model jest początkowo darmowy, z "hojnymi limitami", z zastrzeżeniem ograniczeń obliczeniowych. Użytkownicy ChatGPT Pro mogą uzyskać dostęp do wysokiej jakości modelu Sora 2 Pro najpierw za pośrednictwem ChatGPT, a wsparcie w aplikacji Sora pojawi się wkrótce. OpenAI planuje również udostępnić Sora 2 za pośrednictwem API w celu szerszej integracji. Treści wygenerowane za pomocą Sora 1 Turbo pozostaną dostępne w bibliotekach użytkowników.
OpenAI postrzega Sora 2 jako ważny krok w kierunku rozwoju symulatorów świata ogólnego przeznaczenia i, ostatecznie, zaawansowanej robotyki. Firma postrzega ulepszenia w natywnych modelach sztucznej inteligencji wideo jako ścieżkę nie tylko dla kreatywnych narzędzi, ale także dla systemów, które mogą lepiej rozumieć, wchodzić w interakcje i ostatecznie funkcjonować w świecie fizycznym.