Naukowcy z Uniwersytetu Princeton wykazali https://arstechnica.com/security/2025/05/ai-agents-that-autonomously-trade-cryptocurrency-arent-ready-for-prime-time/ że agenci o dużym modelu językowym, którym powierzono portfele kryptograficzne i operacje inteligentnych kontraktów, mogą zostać przejęci, gdy atakujący edytuje przechowywany kontekst agentów, słabość, którą zespół nazywa "zatruwaniem pamięci"
Ich badanie https://arxiv.org/pdf/2503.16248 twierdzą, że dzisiejsze mechanizmy obronne - głównie filtry podpowiedzi - niewiele robią, gdy złośliwy tekst wślizgnie się do magazynu wektorów lub bazy danych agenta. W eksperymentach krótkie zastrzyki zakopane w pamięci konsekwentnie obalały bariery ochronne, które zablokowałyby ten sam tekst, gdyby pojawił się jako bezpośredni monit.
Zespół zweryfikował atak na ElizaOS, frameworku open-source, którego agenci portfela działają na instrukcjach blockchain. Po zatruciu pamięci współdzielonej badacze zmusili tych agentów do podpisania nieautoryzowanych wywołań inteligentnych kontraktów i przeniesienia aktywów kryptograficznych na adresy kontrolowane przez atakujących, udowadniając, że sfabrykowany kontekst przekłada się na rzeczywiste straty finansowe.
Ponieważ ElizaOS pozwala wielu użytkownikom współdzielić jedną historię konwersacji, pojedyncza skompromitowana sesja skaża każdą inną sesję, która dotyka tej samej pamięci. W artykule ostrzega się, że każde wdrożenie autonomicznych agentów LLM dla wielu użytkowników dziedziczy to ryzyko ruchu bocznego, chyba że wspomnienia są izolowane lub weryfikowalne.
Autorzy zalecają traktowanie wspomnień jako rekordów tylko do załączenia, kryptograficzne podpisywanie każdego wpisu i kierowanie działań o wysokiej stawce - płatności i zatwierdzania umów - przez zewnętrzny silnik reguł zamiast ufać własnemu rozumowaniu modelu. Dopóki takie środki nie staną się standardem, przekazywanie prawdziwych pieniędzy autonomicznym agentom pozostaje ryzykowne.
Źródło(a)
ArsTechnica (w języku angielskim) i Princeton University (w języku angielskim)