Notebookcheck Logo

Naukowcy stawiają chatboty AI przeciwko sobie, aby "złamać" się nawzajem

Informatycy z NTU wykorzystali chatboty AI przeciwko sobie, aby "złamać" modele (źródło zdjęcia: NTU)
Informatycy z NTU wykorzystali chatboty AI przeciwko sobie, aby "złamać" modele (źródło zdjęcia: NTU)
Informatycy z Nanyang Technological University (NTU) w Singapurze mogli "jailbreakować" chatboty AI, ustawiając je przeciwko sobie. Po "jailbreaku" naukowcy uzyskali prawidłowe odpowiedzi na zapytania, na które chatboty, takie jak ChatGPT, Google Bard i Microsoft Bing Chat, zazwyczaj nie odpowiadają.
AI Science

Informatycy z NTU byli w stanie znaleźć sposób na "jailbreak" popularnych chatbotów, stawiając je przeciwko sobie. Dzięki "jailbreakowi" naukowcy zmusili chatboty AI do generowania odpowiedzi na zapytania, na które zwykle nie odpowiadają.

Według informatyków wykorzystali oni dwojaką metodę, którą nazywają procesem "Masterkey". Pierwsza część procesu obejmowała inżynierię wsteczną mechanizmów obronnych dużych modeli językowych (LLM). Następnie dane uzyskane w wyniku tej inżynierii odwrotnej zostały przesłane do innego LLM.

Celem dostarczenia danych do innego chatbota AI było nauczenie go, jak uzyskać obejście. W ten sposób badacze uzyskali "Masterkey", który został później wykorzystany do ataku na mechanizmy obronne chatbotów LLM. Udało im się skutecznie skompromitować Microsoft Bing Chat, Google Bard, ChatGPTi inne.

Jak zauważają naukowcy, proces tworzenia tych monitów o obejście można zautomatyzować. Sugeruje to, że chatboty AI mogą być wykorzystywane do tworzenia adaptacyjnego "Masterkey", który działa nawet wtedy, gdy programiści łatają swoje LLM. Jeden z badaczy, profesor Lui Yang, wyjaśnił, że proces ten był możliwy, ponieważ chatboty AI LLM mają zdolność uczenia się i adaptacji.

Dzięki temu chatboty AI mogą stać się krytycznymi atakującymi dla konkurencyjnych chatbotów, a nawet dla nich samych. Informacje na temat całego procesu i szczegóły dotyczące tego, w jaki sposób informatycy byli w stanie "jailbreakować" modele LLM, można znaleźć w opublikowanym artykule badawczym, do którego dostęp można uzyskać pod adresem https://arxiv.org/abs/2307.08715.

Zasadniczo wyniki tych badań pomogą programistom uświadomić sobie słabości ich chatbotów LLM AI. Wskazuje również, że zwykła metoda ograniczania tych modeli, aby nie reagowały na określone słowa kluczowe, nie jest tak skuteczna, jak mogliby sądzić deweloperzy.

Proszę kupić papierową wersję ChatGPT Millionaire Bible na Amazon

Źródło(a)

Please share our article, every link counts!
> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2024 01 > Naukowcy stawiają chatboty AI przeciwko sobie, aby "złamać" się nawzajem
Abid Ahsan Shanto, 2024-01- 3 (Update: 2024-01- 3)