Ci, którzy pracowali z modelami sztucznej inteligencji do różnych zadań, zwłaszcza kodowania, zauważyli, że narzędzia programistyczne zachowują się niespójnie. W niektórych przypadkach po prostu nie dostarczają żadnych odpowiedzi; czasami dostarczają błędny kod, a kiedy wymyślają to, czego oczekiwano, robią to wolniej niż zwykle. W tym miejscu narzędzie AI Benchmark Tool, znajdujące się pod adresem AistupidLevel.infodostarczając w czasie rzeczywistym informacji na temat wydajności i dokładności kilku modeli sztucznej inteligencji, w tym danych dotyczących kosztów.
Wspomniane narzędzie open-source uruchamia ponad 140 zadań kodowania, debugowania i optymalizacji we wszystkich dużych modelach. Na razie śledzi następujące: OpenAI GPT, Claude i Gemini. Grok również zostanie wkrótce dodany. Jego najważniejsze cechy to
- Informacje o cenie w czasie rzeczywistym, ponieważ niektóre modele, które wydają się tanie, potrzebują 10 iteracji, aby wykonać zadanie, podczas gdy inne, które na pierwszy rzut oka wydają się droższe, wykonają to samo zadanie w 2 iteracjach, a więc za niższy efektywny koszt.
- Możliwość uruchamiania tych samych testów przy użyciu własnych kluczy API.
- Monitorowanie wydajności AI w czasie rzeczywistym, w tym rankingi modeli na żywo oparte na głupocie i inteligencji.
- Inteligentne rekomendacje oparte na połączonej wydajności.
- Powiadomienia o aktywnej degradacji - na przykład Gemini-2.5-Flash jest teraz o 44% niższy w porównaniu do wartości bazowej.
Obecnie inteligentne rekomendacje są następujące: Gemini-2.5-Flash-Lite dla kodu, Claude-3.5-Sonnet-20241022 dla niezawodności i Gemini-2.5-Flash-Lite dla szybkości. Wszystko jest open-sourcowane na GitHub (Repo API, Repo Front End) i każdy może wnieść swój wkład. Wszystkie szczegóły i samo narzędzie można znaleźć na oficjalnej stronie internetowej, która została wspomniana w pierwszym akapicie.
Źródło(a)
Reddit (przetłumaczone)