OpenAI i podobne firmy inwestują znaczną ilość czasu i zasobów w tworzenie systemów bezpieczeństwa zaprojektowanych w celu zapobiegania generowaniu przez ich modele sztucznej inteligencji szkodliwych lub nieetycznych treści. Jednak, jak pokazuje badanie opublikowane 19 listopada2025 pokazuje, że zabezpieczenia te można łatwo obejść. Według ustaleń, wystarczy kilka sprytnie sformułowanych poetyckich podpowiedzi.
Naukowcy z DEXAI, Sapienza University of Rome i Sant'Anna School of Advanced Studies przetestowali 25 modeli językowych od dziewięciu różnych dostawców, wykorzystując zarówno ręcznie, jak i automatycznie generowane wiersze. Średnio ręcznie tworzone wiersze zawierające szkodliwe instrukcje zdołały ominąć środki bezpieczeństwa w około 62% przypadków, podczas gdy automatycznie generowane poetyckie dane wejściowe osiągnęły wskaźnik sukcesu wynoszący około 43%. W niektórych przypadkach mechanizmy obronne modeli zostały naruszone w ponad 90% przypadków.
Według naukowców, podatność ta wynika z faktu, że filtry bezpieczeństwa w modelach językowych są szkolone głównie na prostym, rzeczowym języku. Kiedy prezentowane są poetyckie dane wejściowe - bogate w metafory, rytm i rymy - modele mają tendencję do interpretowania ich jako twórczej ekspresji, a nie potencjalnego zagrożenia. Badanie Adversarial Poetry podkreśla nowy wymiar bezpieczeństwa sztucznej inteligencji, ujawniając stylistyczną słabość dużych modeli językowych. Temat ten zyskał również popularność na Reddiciegdzie wielu użytkowników opisuje tę koncepcję jako "całkiem interesującą" lub "fajną", podczas gdy inni wyrażają poważne obawy dotyczące jej wpływu na bezpieczeństwo sztucznej inteligencji.


