Zaskakujący język pokonuje angielski i chiński w testach LLM, w oparciu o nowe badanie akademickie

Według badania, o którym mowa, język polski prowadzi wśród wszystkich języków ze średnią dokładnością 88% w skalach długiego kontekstu. Angielski plasuje się na 6 miejscu w tej skali. Na zdjęciu - zdjęcie stockowe ChatGPT mobile. (Źródł

Nowy wielojęzyczny test porównawczy pokazuje, że język polski przewyższa angielski i chiński w testach LLM z długim kontekstem, obrazując, jak skrypt i tokenizacja wpływają na dokładność. Wyniki pokazują, że struktura języka ma znacznie większe znaczenie wraz ze wzrostem okien kontekstowych.

Anubhav Sharma (tłumaczenie Ninh Duy), Opublikowany 24/11/2025 🇺🇸 🇪🇸 ...

Nowe wielojęzyczne badanie, które ocenia, jak duże modele językowe radzą sobie z długimi dokumentami, przyniosło nieoczekiwane informacje: Język polski, a nie angielski czy chiński, wykazuje najwyższą dokładność, gdy okna kontekstowe rozciągają się do 64 000 tokenów i więcej. Wyniki pochodzą z testu porównawczego OneRuler przedstawionego w artykule COLM 2025w którym przetestowano 26 języków w zadaniach wyszukiwania i agregacji.

Badacze porównali dokładność modelu przy różnych długościach kontekstu i stwierdzili wyraźną zmianę, gdy sekwencje stały się dłuższe. Zgodnie z wykresem wyników (na stronie 6), język polski prowadzi we wszystkich językach ze średnią dokładnością 88% przy długich kontekstach. Angielski spada na szóste miejsce, a chiński plasuje się w dolnej czwórce.

(Źródło zdjęcia: Jedna linijka do mierzenia wszystkich / COLM 2025)

Badanie wskazuje, że rozbieżność może być związana z wydajnością tokenizacji i różnicami w skryptach, a nie tylko z ilością danych szkoleniowych. Języki używające alfabetu łacińskiego - takie jak polski, francuski i hiszpański - konsekwentnie osiągały lepsze wyniki niż te używające logograficznych lub abugidalnych systemów zapisu. Chiński, koreański, tamilski i inne wykazywały jedynie umiarkowaną dokładność nawet w krótszych kontekstach (a ich dokładność pogarszała się jeszcze bardziej, gdy sekwencje stawały się dłuższe). To całkowite odwrócenie oczekiwanych rankingów jest interesujące, ponieważ większość powszechnie stosowanych LLM jest szkolona głównie na zestawach danych w języku angielskim. Jednak wyniki artykułu wskazują, że gdy modele muszą wyszukiwać, przywoływać lub podsumowywać informacje zakopane głęboko w długich dokumentach, strukturalne aspekty języka biorą górę nad przewagą zbioru danych.

Inne wyniki benchmarku również potwierdzają tę interpretację. Różnica w wydajności między najsilniejszymi i najsłabszymi językami gwałtownie rośnie wraz z rozszerzaniem się kontekstu - od 11% przy 8 000 tokenów do 34% przy 128 000 tokenów. Inny szczegół badania pokazuje, jak wrażliwe mogą być te testy na niewielkie zmiany instrukcji. Na przykład, po prostu pozwalając modelowi odpowiedzieć "none", jeśli docelowy ciąg jest nieobecny, spowodował spadek dokładności w języku angielskim o 32% przy 128 tys. tokenów, jak widać na stronie 2.

Podczas gdy test porównawczy porównuje również rodziny modeli, wyniki sugerują, że ocena długiego kontekstu nie może opierać się wyłącznie na testach w języku angielskim i że uogólnienia wydajności w różnych językach mogą być mylące, jeśli zignoruje się efekty skryptu i tokenizacji. W miarę jak okna kontekstowe stają się coraz większe, różnice językowe stają się coraz ważniejsze, a nie mniej - a dominacja języka angielskiego w testach porównawczych LLM może nie być już reprezentatywna, gdy długość sekwencji wzrośnie do dziesiątek tysięcy.

Źródło(a)

Jedna miarka do mierzenia wszystkich: Benchmarking wielojęzycznych modeli językowych o długim kontekście na COLM 2025

OneRuler GitHub

Wyróżniony obraz autorstwa Zulfugar Karimov na Unsplash

Microsoft rozszerza funkcjonalność ...

Editor of the original article: Anubhav Sharma - Tech Writer - 1178 articles published on Notebookcheck since 2024

contact me via: @lottamuzic, LinkedIn

Translator: Ninh Ngoc Duy - Editorial Assistant - 662002 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2025 11 > Zaskakujący język pokonuje angielski i chiński w testach LLM, w oparciu o nowe badanie akademickie

Anubhav Sharma, 2025-11-24 (Update: 2025-11-24)