DeepSeek zaprezentował najnowszą wersję swojego przełomowego modelu językowego R1 AI, DeepSeek-R1-0528. Firma wkroczyła do świata sztucznej inteligencji wraz z wprowadzeniem na rynek modeli V3 i R1, oba z wydajnością w pierwszej dziesiątce AI ale trenowane taniej i przy mniejszym zużyciu czasu niż konkurencyjne modele takich firm jak OpenAI i Google.
Najnowszy model R1 został przetestowany pod kątem następujących testów porównawczych AI:
- American Invitational Mathematics Examination (AIME) 2024
- American Invitational Mathematics Examination (AIME) 2025
- Google-Proof Q&A (GPQA)
- LiveCodeBench
- Pomoc w kodowaniu sztucznej inteligencji
- Ostatni egzamin ludzkości
Chociaż DeepSeek-R1-0528 poprawił wydajność w porównaniu z oryginalną wersją R1 we wszystkich testach porównawczych, odpowiada poprawnie tylko na 17% pytań w trudnym Humanity's Last Exam. Ponieważ jego najlepsi konkurenci również osiągają słabe wyniki na tym egzaminie, zyski w najnowszej wersji DeepSeek R1 prawdopodobnie wynikają z dodatkowego czasu szkolenia i dostrajania sztucznej inteligencji, a nie z jakiegokolwiek przełomu w tworzeniu sztucznej inteligencji. Co ważne, najnowsza wersja R1 ograniczyła halucynacje AI, więc jest mniej prawdopodobne, że wygeneruje mylące lub fałszywe odpowiedzi.
Czytelnicy, którzy chcą majstrować przy modelu R1 o otwartym kodzie źródłowym, mogą uruchomić destylowane wersje o ośmiu miliardach parametrów przy użyciu procesora graficznego Nvidia 4090 z 24 GB pamięci.