Asystenci AI są zaskakująco biegli w wymyślaniu informacji i przedstawianiu ich jako faktów. Fałszywe twierdzenia, fikcyjne źródła i sfabrykowane cytaty są częścią tej mieszanki. Błędy te są powszechnie określane jako halucynacje. Wielu użytkowników prawdopodobnie przyzwyczaiło się do tego problemu, często polegając na własnym sprawdzaniu faktów, aby oddzielić prawdę od fikcji. Ale według OpenAImoże istnieć alternatywa. 5 września firma stojąca za ChatGPT opublikowała szczegółowy dokument, który oferuje nowe wyjaśnienie, dlaczego halucynacje się zdarzają - i potencjalne rozwiązanie.
Zgadywanie jest nagradzane, a niepewność karana
36-stronicowy artykuł https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdfktórego autorami są Adam Kalai, Santosh Vempala z Georgia Tech i inni badacze OpenAI, wyjaśnia jedną rzecz: halucynacje nie są spowodowane niechlujnym pisaniem, ale sposobem, w jaki skonfigurowane są obecne wskaźniki oceny. Metryki te mają tendencję do nagradzania pewnych przypuszczeń i karania wyrazów niepewności. Badacze porównują to do testów wielokrotnego wyboru - ci, którzy zgadują, mogą zdobyć punkty, podczas gdy ci, którzy pozostawiają pytania puste, nie otrzymują nic. Statystycznie, model zgadywania wychodzi na prowadzenie, nawet jeśli często dostarcza nieprawidłowych informacji.
W rezultacie dzisiejsze tabele wyników - które oceniają wydajność sztucznej inteligencji - koncentrują się prawie całkowicie na dokładności, pomijając zarówno wskaźniki błędów, jak i niepewność. OpenAI wzywa teraz do zmiany. Zamiast po prostu zliczać poprawne odpowiedzi, tabele wyników powinny silniej karać pewne błędy, jednocześnie przyznając pewne uznanie za ostrożne wstrzymanie się od głosu. Celem jest zachęcenie modeli do przyznawania się do niepewności, zamiast przedstawiania fałszywych informacji jako faktów.
Mniej zgadywania, więcej uczciwości
Jeden przykład z artykułu pokazuje różnicę, jaką może zrobić to podejście. W teście porównawczym SimpleQA jeden model zdecydował się nie odpowiadać na ponad połowę pytań, ale pomylił się tylko w 26% odpowiedzi, których udzielił. Inny model odpowiedział na prawie każde pytanie - ale miał halucynacje w około 75% przypadków. Wniosek jest jasny: wykazanie niepewności jest bardziej godne zaufania niż pewne zgadywanie, które tworzy jedynie iluzję precyzji.