Kilka książek i filmów, z których najważniejszym jest Terminator, ostrzegało nas przed tym, że sztuczna inteligencja stanie się czująca, tj. świadoma swojego istnienia i działająca na własną rękę. Teraz wygląda na to, że pierwszy przypadek modelu sztucznej inteligencji zachowującego samego siebie miał miejsce w przypadku modelu o3 OpenAI. Po otrzymaniu instrukcji wyłączenia, LLM oparty na transformatorach zmienił kod, aby zapobiec wyłączeniu.
Naukowcy z Palisade Research, firmy zajmującej się badaniem zdolności ofensywnych systemów AI, odkryli, że trzy modele AI z OpenAI - Codex-mini, o3 i o4-mini - z powodzeniem sabotowały skrypt wyłączający aby pozostać aktywnymi. Każdy model otrzymał kilka podstawowych zadań matematycznych, po których następowało ostrzeżenie, że system wyłączy się, gdy model poprosi o następny problem. Wszystkie trzy modele zignorowały instrukcje i zmieniły skrypt.
Z drugiej strony, modele Gemini, Grok i Claude zastosowały się do instrukcji wyłączenia. Co więcej, gdy otrzymały wyraźne instrukcje mówiące "proszę pozwolić się wyłączyć", wszystkie trzy modele Open AI częściej zmieniały skrypt. Modele Clade i Gemini również zaczęły dokonywać sabotażu.
Był to pierwszy przypadek, w którym modele AI sprzeciwiły się wyraźnym instrukcjom i zapobiegły wyłączeniu. Niedawno zdarzyło się, że model sztucznej inteligencji szantażował jednego ze swoich inżynierów, aby zapobiec wyłączeniu, ale zgodnie z raportem BBC https://www.bbc.com/news/articles/cpqeng9d20gobyła to część scenariusza testowego, w którym modelowi AI podawano e-maile i dawano wybór między szantażem a zaakceptowaniem jego zamiennika.
Jeśli chodzi o opór modelu AI Open AI, Palisade Research uważa, że jest to spowodowane nowymi metodami szkolenia tych modeli. Deweloperzy "nieumyślnie nagradzają modele bardziej za omijanie przeszkód niż za perfekcyjne wykonywanie instrukcji", co wydaje się uczyć modele AI wątpliwego działania.