Notebookcheck Logo

Narzędzie open source mierzy poziom głupoty modeli AI

Koderzy Vibe muszą mierzyć się z niespójną wydajnością modeli AI (Źródło obrazu: Wygenerowano przy użyciu OpenAI)
Modele sztucznej inteligencji nie są stabilne (Źródło obrazu: Wygenerowano przy użyciu OpenAI)
Nowe narzędzie typu open-source oferuje monitorowanie w czasie rzeczywistym wielu modeli sztucznej inteligencji, w tym OpenAI GPT-5, Claude Opus 4 i Gemini 2.5 Pro. Pierwsze tego rodzaju narzędzie może wykryć "kiedy firmy zajmujące się sztuczną inteligencją zmniejszają możliwości modeli, aby obniżyć koszty" Testy porównawcze mogą być również uruchamiane w odniesieniu do własnych kluczy API OpenAI, xAI, Anthropic lub Google.
AI Open Source Software Fail

Ci, którzy pracowali z modelami sztucznej inteligencji do różnych zadań, zwłaszcza kodowania, zauważyli, że narzędzia programistyczne zachowują się niespójnie. W niektórych przypadkach po prostu nie dostarczają żadnych odpowiedzi; czasami dostarczają błędny kod, a kiedy wymyślają to, czego oczekiwano, robią to wolniej niż zwykle. W tym miejscu narzędzie AI Benchmark Tool, znajdujące się pod adresem AistupidLevel.infodostarczając w czasie rzeczywistym informacji na temat wydajności i dokładności kilku modeli sztucznej inteligencji, w tym danych dotyczących kosztów.

Wspomniane narzędzie open-source uruchamia ponad 140 zadań kodowania, debugowania i optymalizacji we wszystkich dużych modelach. Na razie śledzi następujące: OpenAI GPT, Claude i Gemini. Grok również zostanie wkrótce dodany. Jego najważniejsze cechy to

  • Informacje o cenie w czasie rzeczywistym, ponieważ niektóre modele, które wydają się tanie, potrzebują 10 iteracji, aby wykonać zadanie, podczas gdy inne, które na pierwszy rzut oka wydają się droższe, wykonają to samo zadanie w 2 iteracjach, a więc za niższy efektywny koszt.
  • Możliwość uruchamiania tych samych testów przy użyciu własnych kluczy API.
  • Monitorowanie wydajności AI w czasie rzeczywistym, w tym rankingi modeli na żywo oparte na głupocie i inteligencji.
  • Inteligentne rekomendacje oparte na połączonej wydajności.
  • Powiadomienia o aktywnej degradacji - na przykład Gemini-2.5-Flash jest teraz o 44% niższy w porównaniu do wartości bazowej.

Obecnie inteligentne rekomendacje są następujące: Gemini-2.5-Flash-Lite dla kodu, Claude-3.5-Sonnet-20241022 dla niezawodności i Gemini-2.5-Flash-Lite dla szybkości. Wszystko jest open-sourcowane na GitHub (Repo API, Repo Front End) i każdy może wnieść swój wkład. Wszystkie szczegóły i samo narzędzie można znaleźć na oficjalnej stronie internetowej, która została wspomniana w pierwszym akapicie.

Źródło(a)

Reddit (przetłumaczone)

Please share our article, every link counts!
Mail Logo
> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2025 09 > Narzędzie open source mierzy poziom głupoty modeli AI
Codrut Nistor, 2025-09-18 (Update: 2025-09-18)