Notebookcheck Logo

Model DeepSeek OCR AI może przetworzyć 200 000 stron dokumentów dziennie na jednym układzie GPU Nvidia A100

Procesor graficzny Nvidia A100 (źródło obrazu: Nvidia)
Procesor graficzny Nvidia A100 (źródło obrazu: Nvidia)
DeepSeek przygotowuje się do zrewolucjonizowania uczenia się sztucznej inteligencji dzięki nowemu modelowi kompresji OCR o otwartym kodzie źródłowym. Dzięki zaawansowanemu kodowaniu optycznemu, DeepSeek może uczyć się z ponad 200 000 stron dokumentów dziennie na jednym procesorze graficznym Nvidia A100.
AI Nvidia

Wraz z rozprzestrzenianiem się centrów danych sztucznej inteligencji i związanymi z tym kosztami przetwarzania, nacisk kładzie się teraz na wydajność algorytmów, a żaden model językowy nie wydaje się robić tego lepiej niż DeepSeek. Jego modele są open source, a ich szkolenie odbywa się po znacznie niższych kosztach niż w przypadku ChatGPT OpenAI lub Gemini Google.

Nowo ogłoszony model DeepSeek-OCR jest doskonałym przykładem wydajności uczenia się. Wykorzystując mapowanie optyczne, może kompresować bardzo długie dokumenty, konwertując je na obrazy z 97% precyzją rozpoznawania przy współczynniku kompresji niższym niż 10x.

Dzięki zastosowaniu zaawansowanego kodera i dekodera, ponad dziewięć tokenów z tekstem dokumentu można przekonwertować na pojedynczy token wizualny, znacznie zmniejszając zasoby obliczeniowe potrzebne do przetwarzania treści. Nawet przy 20-krotnym współczynniku kompresji, nowy system DeepSeek-OCR może osiągnąć 60% dokładność rozpoznawania optycznego, co jest raczej bezprecedensowym osiągnięciem.

Dzięki nowym algorytmom kompresji AI, DeepSeek-OCR może uczyć się z tekstu naukowego lub historycznego przetwarzanego przez pojedynczy procesor graficzny Nvidia A100 w centrum danych z prędkością 200 000 stron dziennie. 20-węzłowy klaster A100 może zatem przetwarzać 33 miliony stron dokumentów dziennie, co stanowi zmianę paradygmatu w uczeniu się LLM opartym na dużej ilości tekstu. Według rankingu OmniDocBench, DeepSeek-OCR pokonuje inne popularne rozwiązania, takie jak GOT-OCR2.0 lub MinerU2.0 o milę, jeśli chodzi o mniejszą liczbę tokenów wizyjnych używanych na stronę.

Nowe algorytmy DeepEncoder mogą obsługiwać różne rozmiary dokumentów i rozdzielczości bez poświęcania szybkości lub dokładności, podczas gdy dekoder DeepSeek3B-MoE-A570M opiera się na tak zwanej architekturze mix-of-experts, która rozdziela wiedzę na wyspecjalizowane modele potrzebne do każdego zadania OCR. W rezultacie DeepSeel-OCR może przetwarzać złożone dokumenty z wykresami, formułami naukowymi, diagramami lub obrazami, nawet jeśli są napisane w kilku językach.

Aby osiągnąć taką skalę i dokładność, DeepSeek przejrzał 30 milionów stron w formacie Portable Document Format (PDF) napisanych w prawie 100 językach, które obejmowały każdą kategorię, od gazet i naukowego pisma ręcznego po podręczniki i rozprawy doktorskie. Mimo to, choć szybkość i wydajność wizualnej tokenizacji osiągnięta dzięki nowemu systemowi DeepSeek-OCR są niezaprzeczalne, dopiero okaże się, czy doprowadzi to do poprawy wydajności modelu językowego, jeśli chodzi o rzeczywiste wnioskowanie w porównaniu z obecnym paradygmatem tokenów opartych na tekście.

Źródło(a)

Please share our article, every link counts!
Mail Logo
> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2025 10 > Model DeepSeek OCR AI może przetworzyć 200 000 stron dokumentów dziennie na jednym układzie GPU Nvidia A100
Daniel Zlatev, 2025-10-22 (Update: 2025-10-22)