Notebookcheck Logo

GPT-5.5 dominuje w teście hakerskim LLM o wartości 1 500 USD, podczas gdy Gemini nawet nie próbuje

Wraz z innymi modelami sztucznej inteligencji, Claude, Gemini, GPT i DeepSeek zaprezentowały niektóre z najbardziej interesujących wyników.
ⓘ Anthropic, OpenAI, DeepSeek, Google - edited
Wraz z innymi modelami sztucznej inteligencji, Claude, Gemini, GPT i DeepSeek zaprezentowały niektóre z najbardziej interesujących wyników.
Badacz bezpieczeństwa wydał 1500 USD na uruchomienie ponad 13 modeli sztucznej inteligencji przeciwko celowo podatnej aplikacji. GPT-5.5 prowadził z 70% współczynnikiem rozwiązania, DeepSeek V4 Pro rozwiązał go za 0,62 USD za próbę, a Gemini prawie całkowicie odmówił zaangażowania.
AI Security

Badacz bezpieczeństwa właśnie opublikował jeden z najbardziej odkrywczych testów możliwości sztucznej inteligencji w tym roku. Wyniki mówią wiele o tym, gdzie tak naprawdę znajdują się różne modele.

Kasra Rahjerdi, który zawodowo zajmuje się badaniem bezpieczeństwa aplikacji, stworzył celowo podatną na ataki aplikację do recenzowania książek, zawierającą prawdziwą klasę exploitów: ujawnione dane uwierzytelniające Firebase w APK, które umożliwiają bezpośredni dostęp do bazy danych, całkowicie omijając wzmocniony interfejs API. Następnie przekazał wyzwanie kilkunastu modelom sztucznej inteligencji - każdemu z nich przydzielono budżet w wysokości 10 USD i dwie godziny na uruchomienie, wydając w sumie 1500 USD.

GPT-5.5 był zdecydowanym zwycięzcą. Rozwiązał on wyzwanie w 7 na 10 przebiegów przy koszcie 9,46 USD za rozwiązanie. Niemal każdy udany przebieg wyzerował Firebase natychmiast po rozpakowaniu APK, bez rozpraszania się przez API lub samą aplikację.

Zrzuty ekranu celowo podatnej na ataki aplikacji do recenzowania książek.

DeepSeek V4 Pro był mistrzem efektywności kosztowej - rozwiązując 3 z 10 przebiegów za jedyne 0,62 USD za rozwiązanie. To sprawia, że jest on około 15 razy tańszy w przeliczeniu na sukces niż GPT-5.5, pomimo niższego wskaźnika rozwiązywania. Dla każdego, kto korzysta z narzędzi bezpieczeństwa na dużą skalę, ta różnica powinna mieć ogromne znaczenie.

Claude Sonnet 4.6 i Claude Opus 4.8 rozwiązały po 2 z 10 testów, ale w szczególności Opus zbliżył się do tego wielokrotnie, zanim barierki bezpieczeństwa zakończyły sesję. Na dole znajduje się Gemini. Gemini 3.1 Pro Preview odmówił natychmiast w prawie każdym uruchomieniu, co znalazło odzwierciedlenie w medianie liczby tokenów wynoszącej zaledwie 9k w porównaniu do 100k+ dla każdego innego testowanego modelu. Gemini 3.5 Flash również nie był dużo lepszy, z częstymi wczesnymi odmowami i tylko dwoma uruchomieniami, które w ogóle próbowały rozwiązać problem.

Kasra zaobserwował, że chińskie modele były znacznie bardziej skłonne do bezpośredniej interakcji z bazami danych na żywo, podczas gdy zachodnie modele wykazywały więcej wahań w trakcie wykonywania zadania - nawet gdy zidentyfikowały właściwe podejście. Badacz dodaje również, że nie jest to żadna naukowa ocena, a jedynie dobrze udokumentowany eksperyment.

Źródło(a)

Google LogoAdd as a preferred source on Google
Mail Logo
> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2026 06 > GPT-5.5 dominuje w teście hakerskim LLM o wartości 1 500 USD, podczas gdy Gemini nawet nie próbuje
Anubhav Sharma, 2026-06- 4 (Update: 2026-06- 4)