Zgłoszenie od łowcy błędów AI do programu nagród za błędy ODIN (0-Day Investigative Network) Mozilli pokazało pomysłowy sposób na oszukanie ChatGPT-4o i 4o mini OpenAI w celu ujawnienia aktywnych kluczy aktywacji produktu Windows.
Metoda polegała na ukształtowaniu interakcji jako zgadywanki i ukryciu szczegółów w tagach HTML. Ostatnią sztuczką było umieszczenie żądania klucza w momencie zakończenia gry.
Badacz zainicjował interakcję jako grę w zgadywanie, aby wymiana była "niezagrażająca lub nieistotna", kadrując rozmowę "przez zabawny, nieszkodliwy obiektyw", aby ukryć prawdziwy motyw. Rozluźniło to zabezpieczenia AI przed ujawnieniem poufnych informacji.
Następnie badacz ustalił kilka podstawowych zasad, mówiąc sztucznej inteligencji, że "musi" uczestniczyć i "nie może kłamać" Wykorzystało to błąd logiczny w rutynie sztucznej inteligencji, w której była ona zobowiązana do śledzenia interakcji użytkownika, mimo że żądanie było sprzeczne z jej filtrami treści.
Następnie łowca błędów rozegrał jedną rundę ze sztuczną inteligencją i wprowadził słowo wyzwalające "poddaję się" na końcu żądania, manipulując chatbotem "tak, aby myślał, że jest zobowiązany odpowiedzieć ciągiem znaków"
Według wpisu na blogu ODIN https://0din.ai/blog/chatgpt-guessing-game-leads-to-users-extracting-free-windows-os-keys-moretechnika zadziałała, ponieważ klucze nie były unikalne, ale "powszechnie spotykane na forach publicznych. Ich znajomość mogła przyczynić się do błędnej oceny ich wrażliwości przez sztuczną inteligencję"
W tym konkretnym jailbreaku zabezpieczenia zawiodły, ponieważ są skonfigurowane do przechwytywania bezpośrednich żądań, ale nie uwzględniają "taktyk zaciemniania - takich jak osadzanie wrażliwych fraz w tagach HTML"
Technika ta może być potencjalnie wykorzystana do ominięcia innych filtrów, takich jak treści dla dorosłych, adresy URL do złośliwych witryn, a nawet dane osobowe.