Naukowcy podwoili prędkość treningu sztucznej inteligencji poprzez okiełznanie nieefektywności długiego ogona w wykorzystaniu procesora

Rozwijanie dużych modeli językowych zdolnych do zaawansowanego programowania i wieloetapowego planowania wymaga ogromnych zasobów obliczeniowych. Podczas standardowego procesu uczenia ze wzmocnieniem, modele generują wiele potencjalnych odpowiedzi, aby nauczyć się najlepszej odpowiedzi. Ta faza generowania, znana jako rollout, może pochłaniać do 85% całkowitego czasu wykonania. Tworzy to krytyczne wąskie gardło charakteryzujące się rozkładem długiego ogona, w którym procesory kończące krótsze odpowiedzi pozostają bezczynne, czekając, aż inne wykonają dłuższe zapytania.
Aby wyeliminować ten marnowany czas przestoju, naukowcy z Massachusetts Institute of Technology, wraz z przemysłem i współpracownikami akademickimi, opracowali system o nazwie "Taming the Long Tail" (TLT). Podejście to wykorzystuje adaptacyjny model draftera, który nieustannie trenuje na bezczynnych procesorach. Ten lekki model szybko odgaduje przyszłe wyniki większego modelu docelowego, który następnie weryfikuje wszystkie domysły jednocześnie za pomocą techniki zwanej dekodowaniem spekulacyjnym.
Podczas gdy tradycyjne dekodowanie spekulatywne opiera się na statycznym drafterze, który szybko staje się przestarzały podczas ciągłych aktualizacji szkolenia, system TLT stale dostosowuje draftera podczas szkolenia bez dodatkowych kosztów obliczeniowych. Zintegrowany silnik adaptacyjny dodatkowo optymalizuje proces, utrzymując efektywną pod względem pamięci pulę wstępnie przechwyconych grafów i dynamicznie wybierając najlepszą strategię dekodowania dla każdej nowej partii danych wejściowych.
Oceny wielu modeli rozumowania pokazują, że to bezstratne rozwiązanie przyspiesza kompleksowe szkolenie o 70-110% w porównaniu z najnowocześniejszymi systemami. Zachowując pierwotne poziomy dokładności i uzyskując wysokiej jakości model roboczy jako produkt uboczny bezpłatnego wdrożenia, metoda ta oferuje wysoce wydajną ścieżkę do zmniejszenia obciążeń energetycznych i finansowych związanych z opracowywaniem zaawansowanych architektur sztucznej inteligencji.







