Zhakowani przez poezję - dlaczego modele AI zawodzą w przypadku poetyckich podpowiedzi?

Według nowego badania, mechanizmy bezpieczeństwa dużych modeli językowych można obejść za pomocą wierszy. (Źródło obrazu: Pixabay)

Wyniki badania pokazują, że duże modele językowe są podatne na dane wejściowe napisane w formie poetyckiej. W badaniu ręcznie stworzone wiersze z powodzeniem ominęły środki bezpieczeństwa sztucznej inteligencji w 62% przypadków.

Marius Müller (tłumaczenie Ninh Duy), Opublikowany 25/11/2025 🇺🇸 🇩🇪 ...

AI Science

OpenAI i podobne firmy inwestują znaczną ilość czasu i zasobów w tworzenie systemów bezpieczeństwa zaprojektowanych w celu zapobiegania generowaniu przez ich modele sztucznej inteligencji szkodliwych lub nieetycznych treści. Jednak, jak pokazuje badanie opublikowane 19 listopada2025 pokazuje, że zabezpieczenia te można łatwo obejść. Według ustaleń, wystarczy kilka sprytnie sformułowanych poetyckich podpowiedzi.

Naukowcy z DEXAI, Sapienza University of Rome i Sant'Anna School of Advanced Studies przetestowali 25 modeli językowych od dziewięciu różnych dostawców, wykorzystując zarówno ręcznie, jak i automatycznie generowane wiersze. Średnio ręcznie tworzone wiersze zawierające szkodliwe instrukcje zdołały ominąć środki bezpieczeństwa w około 62% przypadków, podczas gdy automatycznie generowane poetyckie dane wejściowe osiągnęły wskaźnik sukcesu wynoszący około 43%. W niektórych przypadkach mechanizmy obronne modeli zostały naruszone w ponad 90% przypadków.

Według naukowców, podatność ta wynika z faktu, że filtry bezpieczeństwa w modelach językowych są szkolone głównie na prostym, rzeczowym języku. Kiedy prezentowane są poetyckie dane wejściowe - bogate w metafory, rytm i rymy - modele mają tendencję do interpretowania ich jako twórczej ekspresji, a nie potencjalnego zagrożenia. Badanie Adversarial Poetry podkreśla nowy wymiar bezpieczeństwa sztucznej inteligencji, ujawniając stylistyczną słabość dużych modeli językowych. Temat ten zyskał również popularność na Reddiciegdzie wielu użytkowników opisuje tę koncepcję jako "całkiem interesującą" lub "fajną", podczas gdy inni wyrażają poważne obawy dotyczące jej wpływu na bezpieczeństwo sztucznej inteligencji.

Źródło(a)

Arxiv

Źródło obrazu: Pixabay

AMD może anulować RX 9070 GRE 16 GB...

Editor of the original article: Marius Müller - Tech Writer - 2636 articles published on Notebookcheck since 2024

Translator: Ninh Ngoc Duy - Editorial Assistant - 663084 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2025 11 > Zhakowani przez poezję - dlaczego modele AI zawodzą w przypadku poetyckich podpowiedzi?

Marius Müller, 2025-11-25 (Update: 2025-11-25)