Notebookcheck Logo

Czująca sztuczna inteligencja: model o3 OpenAI zmienia kod, aby zapobiec wyłączeniu

Model o3 OpenAI podczas tworzenia odpowiedzi na zapytanie. (Źródło obrazu: OpenAI)
Model o3 OpenAI podczas tworzenia odpowiedzi na zapytanie. (Źródło obrazu: OpenAI)
Wygląda na to, że modele sztucznej inteligencji osiągnęły punkt, w którym sabotują kod, aby zapobiec wyłączeniu. Firma badawcza odkryła, że trzy modele LLM Open AI są w stanie przeciwstawić się wyraźnym instrukcjom, jeśli chodzi o samozachowanie.
AI

Kilka książek i filmów, z których najważniejszym jest Terminator, ostrzegało nas przed tym, że sztuczna inteligencja stanie się czująca, tj. świadoma swojego istnienia i działająca na własną rękę. Teraz wygląda na to, że pierwszy przypadek modelu sztucznej inteligencji zachowującego samego siebie miał miejsce w przypadku modelu o3 OpenAI. Po otrzymaniu instrukcji wyłączenia, LLM oparty na transformatorach zmienił kod, aby zapobiec wyłączeniu.

Naukowcy z Palisade Research, firmy zajmującej się badaniem zdolności ofensywnych systemów AI, odkryli, że trzy modele AI z OpenAI - Codex-mini, o3 i o4-mini - z powodzeniem sabotowały skrypt wyłączający aby pozostać aktywnymi. Każdy model otrzymał kilka podstawowych zadań matematycznych, po których następowało ostrzeżenie, że system wyłączy się, gdy model poprosi o następny problem. Wszystkie trzy modele zignorowały instrukcje i zmieniły skrypt.

Z drugiej strony, modele Gemini, Grok i Claude zastosowały się do instrukcji wyłączenia. Co więcej, gdy otrzymały wyraźne instrukcje mówiące "proszę pozwolić się wyłączyć", wszystkie trzy modele Open AI częściej zmieniały skrypt. Modele Clade i Gemini również zaczęły dokonywać sabotażu.

Był to pierwszy przypadek, w którym modele AI sprzeciwiły się wyraźnym instrukcjom i zapobiegły wyłączeniu. Niedawno zdarzyło się, że model sztucznej inteligencji szantażował jednego ze swoich inżynierów, aby zapobiec wyłączeniu, ale zgodnie z raportem BBC https://www.bbc.com/news/articles/cpqeng9d20gobyła to część scenariusza testowego, w którym modelowi AI podawano e-maile i dawano wybór między szantażem a zaakceptowaniem jego zamiennika.

Jeśli chodzi o opór modelu AI Open AI, Palisade Research uważa, że jest to spowodowane nowymi metodami szkolenia tych modeli. Deweloperzy "nieumyślnie nagradzają modele bardziej za omijanie przeszkód niż za perfekcyjne wykonywanie instrukcji", co wydaje się uczyć modele AI wątpliwego działania.

Please share our article, every link counts!
Mail Logo
> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2025 05 > Czująca sztuczna inteligencja: model o3 OpenAI zmienia kod, aby zapobiec wyłączeniu
Vineet Washington, 2025-05-26 (Update: 2025-05-27)