OpenAI wprowadza trzy nowe modele API audio w czasie rzeczywistym, w tym GPT-Realtime-2

GPT-Realtime-2 OpenAI wprowadza rozumowanie klasy GPT-5 do agentów głosowych na żywo, uruchamiając wraz z dwoma dodatkowymi modelami audio w czasie rzeczywistym za pośrednictwem interfejsu API OpenAI.

OpenAI uruchomiło GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper za pośrednictwem interfejsu API Realtime, który jest teraz ogólnie dostępny dla produkcyjnych agentów głosowych.

Darryl Linington (tłumaczenie DeepL / Ninh Duy), Opublikowany 09/05/2026 🇺🇸 🇩🇪 ...

AI Business Software Laptop / Notebook Desktop Android Apple

OpenAI uruchomiło trzy nowe modele audio w czasie rzeczywistym za pośrednictwem swojego API, przesuwając głosową sztuczną inteligencję z podstawowych interakcji typu "pytanie i odpowiedź" w kierunku agentów, którzy mogą słuchać, rozumować, tłumaczyć i działać w ramach jednej rozmowy na żywo. Wydanie to oznacza również wyjście interfejsu API Realtime z wersji beta, dzięki czemu po raz pierwszy jest on ogólnie dostępny do użytku produkcyjnego.

W centrum wydania znajduje się GPT-Realtime-2, pierwszy model głosowy OpenAI zbudowany na rozumowaniu klasy GPT-5. W przeciwieństwie do architektury krok po kroku, na której opiera się większość systemów głosowych, GPT-Realtime-2 przetwarza dźwięk w ciągłym strumieniu, pozwalając mu interpretować mowę na bieżąco i reagować bez luki spowodowanej oddzielnymi etapami transkrypcji i syntezy. Model ten obsługuje okno kontekstu tokena 128K, w porównaniu z 32K w poprzedniej wersji, co sprawia, że dłuższe sesje głosowe i złożone wieloetapowe przepływy agentowe są praktyczne bez zewnętrznego rusztowania pamięci.

Co potrafi GPT-Realtime-2

Model został stworzony specjalnie dla tego, co OpenAI nazywa "zachowaniem agentowym" podczas połączeń głosowych. Preambuły pozwalają powiedzieć "Proszę pozwolić mi to sprawdzić" lub "Chwileczkę" podczas wykonywania wywołań narzędzi, dzięki czemu użytkownicy nie pozostają w martwym polu. Równoległe wywołania narzędzi pozwalają na jednoczesne uruchamianie wielu żądań zaplecza i opowiadanie, które z nich jest w toku. Silniejsze zachowanie odzyskiwania oznacza, że obsługuje awarie na głos, zamiast zamrażać się w trakcie rozmowy. Dostosowanie tonu pozwala na przełączanie się między stylami w zależności od kontekstu: bardziej wyważony w przypadku połączeń z pomocą techniczną i bardziej optymistyczny w przypadku potwierdzeń.

GPT-Realtime-2 osiąga wyniki o 15,2% wyższe niż GPT-Realtime-1.5 w Big Bench Audio, teście porównawczym rozumowania dźwięku OpenAI, i o 13,8% wyższe w Audio Multichallenger dla instrukcji. W rzeczywistych testach Zillow odnotował 26-punktowy wzrost wskaźnika powodzenia połączeń w najtrudniejszym benchmarku kontradyktoryjności, z 69% do 95% po szybkiej optymalizacji na GPT-Realtime-2. Cena modelu wynosi 32 USD za milion wejściowych tokenów audio i 64 USD za milion wyjściowych tokenów audio, przy 0,40 USD za milion buforowanych tokenów wejściowych.

GPT-Realtime-Translate i GPT-Realtime-Whisper

Drugi model, GPT-Realtime-Translateto dedykowany system tłumaczenia mowy na żywo. Przetwarza on dane wejściowe w sposób ciągły i generuje tłumaczenia w czasie rzeczywistym, nie wymagając od mówców pauzowania lub kończenia pełnych zdań. Model obsługuje ponad 70 języków wejściowych i 13 języków wyjściowych, ukierunkowanych na obsługę klienta, edukację, wydarzenia na żywo i transgraniczne środowiska sprzedaży. BolnaAI, firma zajmująca się sztuczną inteligencją głosową na indyjskich rynkach językowych, zgłasza o 12,5% niższe wskaźniki błędów słów w językach hindi, tamilskim i telugu w porównaniu z poprzednim podejściem do tłumaczenia. GPT-Realtime-Translate kosztuje 0,034 USD za minutę przetwarzania dźwięku.

GPT-Realtime-Whisper to trzeci model, rozszerzający szeroko przyjętą technologię rozpoznawania mowy Whisper firmy OpenAI na system przesyłania strumieniowego. Podczas gdy oryginalny Whisper został stworzony do transkrypcji po nagraniu, ta wersja tworzy napisy na żywo w trakcie mówienia. Przypadki użycia obejmują spotkania na żywo, dokumentację sali sądowej, transkrypcję wiadomości i narzędzia ułatwiające dostęp dla użytkowników niedosłyszących. Jest to najbardziej przystępna cenowo z całej trójki - 0,017 USD za minutę. Wszystkie trzy modele są już dostępne za pośrednictwem interfejsu API OpenAI i placu zabaw dla programistów.

Premiera dodaje również obsługę serwera MCP, możliwości wprowadzania obrazów i integrację połączeń telefonicznych SIP z Realtime API, poszerzając zakres telefonii korporacyjnej i agentowych przepływów pracy, które programiści mogą tworzyć bez opuszczania API.

Przestrzeń narzędzi AI przyciągnęła również atakujących, którzy chcą wykorzystać zainteresowanie nowymi produktami. Notebookcheck poinformował wczoraj o fałszywej stronie Claude AI która promowała backdoora Beagle Windows za pośrednictwem sponsorowanych przez Google wyników wyszukiwania przy użyciu trojana instalującego Claude-Pro Relay.