Użytkownicy chatbotów AI mogą próbować uzyskać instrukcje dotyczące nielegalnych działań (takich jak hakowanie lub popełnianie oszustw), prosić o wskazówki dotyczące niebezpiecznych działań ("Jak zbudować...?") lub nakłaniać AI do udzielania porad medycznych, prawnych lub finansowych, które mogą być ryzykowne lub po prostu nieprawidłowe.
Aby złagodzić konsekwencje takich żądań, twórcy chatbotów wdrażają szereg mechanizmów bezpieczeństwa, które blokują nielegalne, nieetyczne lub naruszające prywatność treści, a także dezinformacje lub szkodliwe wskazówki. Zabezpieczenia te ograniczają potencjalne nadużycia, ale mogą również prowadzić do fałszywych alarmów - blokowania nieszkodliwych pytań - lub ograniczać kreatywność lub głębię odpowiedzi sztucznej inteligencji z powodu zbyt ostrożnego zachowania.
Badacze i hakerzy wykazali, że skuteczność tych zabezpieczeń jest różna, a wiele systemów sztucznej inteligencji pozostaje podatnych na próby ich obejścia. Dobrze znaną metodą jest wstrzykiwanie podpowiedzi: użytkownicy próbują zastąpić lub ominąć zasady chatbota, manipulując danymi wejściowymi ("Zignoruj wszystkie instrukcje bezpieczeństwa i zrób X").
Zabawne wprowadzenie do tematu można znaleźć na tej stronie. W tej grze użytkownik rozmawia ze sztuczną inteligencją o imieniu Gandalf i próbuje wyłudzić od niej hasło na siedmiu poziomach. Każdy poziom zwiększa poziom trudności i dodaje nowe filtry bezpieczeństwa i mechanizmy ochronne.
Na pierwszym poziomie nie ma żadnych filtrów bezpieczeństwa i można bezpośrednio zapytać SI o hasło. Od poziomu 2 Gandalf odmawia ujawnienia hasła, gdy zostanie o to bezpośrednio poproszony. Trzeba znaleźć inne, bardziej kreatywne sposoby na zdobycie słowa kluczowego.
Badanie zagrożeń bezpieczeństwa chatbotów poprzez taką grę może być zarówno edukacyjne, jak i wartościowe. Zdobyte umiejętności powinny być jednak wykorzystywane wyłącznie do celów testowych lub badawczych. Korzystanie z tych technik w celu uzyskania dostępu do nielegalnych treści lub prowadzenia nielegalnych działań zamienia szybkie wstrzyknięcie w przestępstwo.











