Narzędzie open source mierzy poziom głupoty modeli AI

Modele sztucznej inteligencji nie są stabilne dla kodowania wibracji (Źródło obrazu: Wygenerowano przy użyciu OpenAI)

Nowe narzędzie typu open-source oferuje monitorowanie w czasie rzeczywistym wielu modeli sztucznej inteligencji, w tym OpenAI GPT-5, Claude Opus 4 i Gemini 2.5 Pro. Pierwsze tego rodzaju narzędzie może wykryć "kiedy firmy zajmujące się sztuczną inteligencją zmniejszają możliwości modeli, aby obniżyć koszty" Testy porównawcze mogą być również uruchamiane w odniesieniu do własnych kluczy API OpenAI, xAI, Anthropic lub Google.

Codrut Nistor (tłumaczenie Ninh Duy), Opublikowany 18/09/2025 🇺🇸 🇪🇸 ...

AI Open Source Software Fail

Ci, którzy pracowali z modelami sztucznej inteligencji do różnych zadań, zwłaszcza kodowania, zauważyli, że narzędzia programistyczne zachowują się niespójnie. W niektórych przypadkach po prostu nie dostarczają żadnych odpowiedzi; czasami dostarczają błędny kod, a kiedy wymyślają to, czego oczekiwano, robią to wolniej niż zwykle. W tym miejscu narzędzie AI Benchmark Tool, znajdujące się pod adresem AistupidLevel.infodostarczając w czasie rzeczywistym informacji na temat wydajności i dokładności kilku modeli sztucznej inteligencji, w tym danych dotyczących kosztów.

Wspomniane narzędzie open-source uruchamia ponad 140 zadań kodowania, debugowania i optymalizacji we wszystkich dużych modelach. Na razie śledzi następujące: OpenAI GPT, Claude i Gemini. Grok również zostanie wkrótce dodany. Jego najważniejsze cechy to

Informacje o cenie w czasie rzeczywistym, ponieważ niektóre modele, które wydają się tanie, potrzebują 10 iteracji, aby wykonać zadanie, podczas gdy inne, które na pierwszy rzut oka wydają się droższe, wykonają to samo zadanie w 2 iteracjach, a więc za niższy efektywny koszt.
Możliwość uruchamiania tych samych testów przy użyciu własnych kluczy API.
Monitorowanie wydajności AI w czasie rzeczywistym, w tym rankingi modeli na żywo oparte na głupocie i inteligencji.
Inteligentne rekomendacje oparte na połączonej wydajności.
Powiadomienia o aktywnej degradacji - na przykład Gemini-2.5-Flash jest teraz o 44% niższy w porównaniu do wartości bazowej.

Obecnie inteligentne rekomendacje są następujące: Gemini-2.5-Flash-Lite dla kodu, Claude-3.5-Sonnet-20241022 dla niezawodności i Gemini-2.5-Flash-Lite dla szybkości. Wszystko jest open-sourcowane na GitHub (Repo API, Repo Front End) i każdy może wnieść swój wkład. Wszystkie szczegóły i samo narzędzie można znaleźć na oficjalnej stronie internetowej, która została wspomniana w pierwszym akapicie.