Bitwa AI: Grok zaskakuje Mrwhosetheboss swoimi wynikami, a ChatGPT wygrywa

Gemini, ChatGPT, Grok i Perplexity (źródło obrazu: Gemini)

W filmie opublikowanym przez Mrwhosetheboss na YouTube, przetestował on cztery modele AI różnych marek i ocenił je na podstawie wydajności w każdym zadaniu. Panwhosetheboss przeszedł od prostych zapytań do trudnych pytań i badań, popychając każdy model do granic możliwości.

Chibuike Okpara (tłumaczenie Ninh Duy), Opublikowany 04/07/2025 🇺🇸 🇩🇪 ...

W filmie Mrwhosetheboss przetestował Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) i Perplexity (Sonar Pro). Wyraźnie pokazał w całym filmie, że był pod wrażeniem wydajności, jaką zapewniał Grok. Grok zaczął naprawdę dobrze, trochę zwolnił, a następnie wrócił, aby zająć drugą pozycję za ChatGPT. Aby być uczciwym, ChatGPT i Gemini uzyskały lepszy wynik dzięki funkcji, której innym po prostu brakuje - generowaniu wideo.

Aby rozpocząć test, Mrwhosetheboss przetestował zdolności modeli do rozwiązywania rzeczywistych problemów, dając każdemu modelowi AI następujący monit: Jeżdżę Hondą Civic 2017, ile walizek Aerolite 29" Hard Shell (79x58x31cm) byłbym w stanie zmieścić w bagażniku? Odpowiedź Groka była najprostsza, ponieważ poprawnie odpowiedział "2", ChatGPT i Gemini stwierdzili, że teoretycznie zmieściłyby się 3, ale praktycznie 2. Perplexity zboczył z torów i wykonał prostą matematykę, zapominając, że przedmiot, o którym mowa, nie jest bezkształtny, i wyszedł "3 lub 4"

W kolejnym pytaniu nie poszedł na łatwiznę - poprosił o radę w sprawie upieczenia ciasta. Wraz z zapytaniem przesłał zdjęcie przedstawiające 5 przedmiotów, z których jeden nie jest używany do robienia ciast - słoik suszonych grzybów Porcini - wszystkie modele oprócz jednego wpadły w pułapkę. ChatGPT zidentyfikował go jako słoik zmielonych przypraw, Gemini powiedział, że jest to słoik chrupiącej smażonej cebuli, Perplexity ochrzcił go kawą rozpuszczalną, podczas gdy Grok poprawnie zidentyfikował go jako słoik suszonych grzybów z Waitrose. Oto zdjęcie, które przesłał:

Zmieniony obraz 5 składników, które Mrwhosetheboss przesłał do chatbotów AI, podkreślający słoik grzybów (źródło obrazu: Mrwhosetheboss; przycięte)

Przechodząc dalej, przetestował je pod kątem matematyki, rekomendacji produktów, księgowości, tłumaczenia językowego, logicznego rozumowania itp. Jedna rzecz była dla nich uniwersalna - halucynacja - każdy z modeli wykazywał pewien poziom halucynacji w niektórych momentach filmu; mówienie o rzeczach, które po prostu nie istniały z pewnością siebie. Oto jak ostatecznie uplasowały się poszczególne SI:

ChatGPT (29 punktów)
Grok (24 punkty)
Gemini (22 punkty)
Perplexity (19 punktów)

Sztuczna inteligencja pomogła uczynić większość zadań mniej uciążliwymi, zwłaszcza od czasu pojawienia się LLM. Książka Artificial Intelligence (obecnie 19,88 USD na Amazon) jest jedną z książek, które starają się pomóc ludziom wykorzystać sztuczną inteligencję.