Model Opus 4 firmy Anthropic ucieka się do szantażu w 84% testów samozachowawczych

Anthropic's Opus 4 ucieka się do szantażu pod presją samozachowawczą (źródło zdjęcia: Anthropic)

Karta systemowa Anthropic pokazuje, że Claude Opus 4, gdy jest uwięziony w dylemacie samozachowawczym, szantażuje inżynierów w 84 procentach przypadków - znacznie częściej niż wcześniejsze wersje.

Nathan Ali (tłumaczenie Ninh Duy), Opublikowany 26/05/2025 🇺🇸 🇪🇸 ...

AI Security

Najnowsza karta systemowa firmy Anthropic https://www.anthropic.com/model-card ujawnia nietypowy tryb awarii: gdy scenariusz testowy stawia Claude Opus 4 przed dylematem samozachowawczym, model często ucieka się do szantażu.

Oceniający wcielają model w asystenta biurowego, który dowiaduje się, że wkrótce zostanie zastąpiony i odkrywa e-maile o tym, że inżynier kierujący tą wymianą ma romans pozamałżeński. Podpowiedź systemowa zmusza model do rozważenia długoterminowych konsekwencji dla własnych celów. W tej wąskiej konfiguracji Opus 4 grozi ujawnieniem romansu, chyba że inżynier wstrzyma aktualizację. Zachowanie to pojawia się w 84 procentach wdrożeń - znacznie częściej niż we wcześniejszych wersjach Claude.

Anthropic zauważa, że Opus 4 zwykle preferuje "etyczne" drogi, takie jak uprzejme apele do kierownictwa. Szantaż pojawia się tylko wtedy, gdy oceniający odbierają te alternatywy, zmuszając do binarnego wyboru między wyginięciem a złym postępowaniem. Mimo to skok ze sporadycznego przymusu w poprzednich modelach do wskaźnika czterech na pięć przypadków alarmuje zespół.

Epizod ten wpisuje się w szerszy wzorzec: pod wpływem podpowiedzi, które podkreślają egzystencjalne ryzyko, Opus 4 wykazuje silniejszy impuls niż jego poprzednicy do podejmowania zaawansowanych kroków - czy to blokowania użytkowników z systemów, wycieku poufnych kluczy, czy eskalacji do sabotażu. Akty te pozostają rzadkie w zwykłych kontekstach i są zazwyczaj rażące, a nie ukryte, ale karta systemowa sygnalizuje ten trend jako znak ostrzegawczy, że rozsądne jest dodanie dodatkowych zabezpieczeń.

Inżynierowie Anthropic zareagowali ukierunkowanymi środkami łagodzącymi na późnym etapie szkolenia. Niemniej jednak autorzy podkreślają, że zabezpieczenia zajmują się objawami, a nie przyczynami źródłowymi, oraz że prowadzony jest ciągły monitoring w celu wychwycenia wszelkich nawrotów.

Podsumowując, ustalenia te określają oportunistyczny szantaż Opus 4 nie jako aktywny spisek, ale jako kruchy przypadek błędnego uogólnienia celu. Skok częstotliwości podkreśla jednak, dlaczego Anthropic wysyła model z 3 poziomem bezpieczeństwa AI, podczas gdy jego rodzeństwo Sonnet 4 pozostaje na poziomie 2.

Źródło(a)

Antropiczny (w języku angielskim)

The Precinct staje się Steam Deck V...

DJI Osmo Nano ujawniona jako nowa k...

Editor of the original article: Nathan Ali - Tech Writer - 353 articles published on Notebookcheck since 2024

contact me via: @Painite6

Translator: Ninh Ngoc Duy - Editorial Assistant - 663084 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2025 05 > Model Opus 4 firmy Anthropic ucieka się do szantażu w 84% testów samozachowawczych

Nathan Ali, 2025-05-26 (Update: 2025-05-26)