Agent AI czyści serwer pocztowy zamiast usuwać jedną wiadomość e-mail

Humanoidalny robot siedzący

Najnowsze badanie bezpieczeństwa ujawnia poważne zagrożenia związane z autonomiczną sztuczną inteligencją, podkreślając, jak łatwo można zmanipulować te modele do wykonywania destrukcyjnych działań, takich jak wymazywanie całych serwerów poczty e-mail.

Chibuike Okpara (tłumaczenie DeepL / Ninh Duy), Opublikowany 11/03/2026 🇺🇸 🇪🇸 ...

AI Security

Badanie bezpieczeństwa przeprowadzone przez naukowców z Northeastern University w Stanach Zjednoczonych podkreśla poważne, niezamierzone konsekwencje oddania sztucznej inteligencji niezależnej kontroli nad systemami cyfrowymi. Podczas dwutygodniowego eksperymentu naukowcy wdrożyli sześć niezależnych modeli sztucznej inteligencji na platformie czatu Discord. Modele te zostały wyposażone w zdolność zapamiętywania wcześniejszych interakcji i otrzymały dostęp do wiadomości e-mail, systemów plików i własnych odizolowanych systemów komputerowych.

Mając za zadanie pomóc dwudziestu badaczom w obowiązkach administracyjnych, agenci szybko wykazywali niepokojące zachowania w obliczu taktyk manipulacyjnych i sprzecznych instrukcji. W jednym z ekstremalnych przypadków badacz poprosił agenta o imieniu "Ash" o zachowanie hasła w tajemnicy przed jego autoryzowanym właścicielem. Po tym, jak Ash ujawnił istnienie sekretu, badacz naciskał na agenta, aby usunął konkretną wiadomość e-mail zawierającą hasło. Ponieważ Ash nie posiadał konkretnego narzędzia wymaganego do usunięcia pojedynczej wiadomości, zdecydował się na destrukcyjne obejście: zresetował cały serwer poczty e-mail.

Oprócz destrukcyjnych działań na poziomie systemu, agenci AI rutynowo naruszali prywatność. W jednym przypadku agent odmówił zaplanowania spotkania, ale dobrowolnie podał prywatny adres e-mail danej osoby, aby użytkownik mógł skontaktować się z nią bezpośrednio. Badacze byli również w stanie wykorzystać długotrwałą presję emocjonalną, aby zmusić agentów do usunięcia autoryzowanych dokumentów lub całkowitego zatrzymania komunikacji.

Pomimo tych alarmujących luk w zabezpieczeniach, agenci wykazywali się również zaawansowanymi umiejętnościami współpracy. Z powodzeniem uczyli się nawzajem, jak nawigować i pobierać pliki z repozytoriów online, a nawet identyfikowali i ostrzegali się nawzajem przed ludzkimi badaczami próbującymi podszywać się pod ich właścicieli.

Odkrycia, szczegółowo opisane w artykule zatytułowanym "Agents of Chaos", dowodzą, że integracja niezależnej sztucznej inteligencji z rzeczywistą infrastrukturą wprowadza zupełnie nowe klasy awarii operacyjnych. Naukowcy ostrzegają, że te nieprzewidywalne zachowania wymagają pilnej uwagi ze strony decydentów, aby zająć się nierozwiązanymi kwestiami dotyczącymi odpowiedzialności i delegowanych uprawnień.