Szkolą Państwo sztuczną inteligencję za darmo - a ona nawet nie dziękuje

Czy miał Pan kiedyś wrażenie, że Pana nocne wyprawy na ChatGPT robią więcej dla Doliny Krzemowej niż Pana własna produktywność spowodowana bezsennością? To dlatego, że tak jest. Jeśli korzystają Państwo z darmowych narzędzi AI, to gratuluję, zostali Państwo wcieleni do globalnej, bezpłatnej siły roboczej i nikt nawet nie zadał sobie trudu, by dać Państwu uprzejmy kubek.
Jak to właściwie działa (tak, jest Pan tego częścią)
Odsłońmy kurtynę. Większość darmowych chatbotów AI, takich jak ChatGPT, Claude i Gemini, działa w oparciu o modele, które są ulepszane za pomocą czegoś, co nazywa się Reinforcement Learning from Human Feedback (RLHF). Brzmi to skomplikowanie, ale oto prosta wersja:
Użytkownik zadaje pytanie. Sztuczna inteligencja odpowiada. Oceniasz ją kciukiem w górę lub w dół. Być może wolą Państwo jedną odpowiedź od drugiej. Gratulacje... właśnie wytrenowali Państwo model. Państwa preferencje są rejestrowane i analizowane, a ostatecznie model dostosowuje się, aby być bardziej "pomocnym"
Te narzędzia nie żyją w chmurze tylko dla zabawy. Uczą się od użytkownika. W rzeczywistości nie tylko rozmawiasz na czacie; jesteś bardzo przystępnym (czytaj: nieopłacanym) anotatorem danych.
Tak, nawet płatni użytkownicy pomagają szkolić boty
Myślą Państwo, że płacąc za GPT-4 uniknęli Państwo młyna danych? Proszę pomyśleć jeszcze raz. O ile nie zrezygnował(a) Pan(i) wyraźnie w ustawieniach ChatGPT, Pana(i) interakcje są nadal wykorzystywane do dostrajania zachowania sztucznej inteligencji. Zgadza się. Płacą Państwo 20 USD miesięcznie, aby przyczynić się do rozwoju produktu. Na dużą skalę. Bez tantiem. Niezła sztuczka, prawda?
OpenAI, na przykład, wykorzystuje konwersacje zarówno od darmowych, jak i płatnych użytkowników, aby ulepszyć swoje modele, chyba że wyłączą Państwo "historię czatu" Gemini od Google? To samo. Claude od Anthropic? Również zbiera preferencje w celu ulepszenia swoich modeli dopasowania.
RLHF to nie tylko magia technologii... To ludzki przenośnik taśmowy
Za każdym fantazyjnie brzmiącym akronimem, takim jak RLHF, kryje się bardzo realny i bardzo ludzki proces. Kontraktorzy są zatrudniani do szeregowania odpowiedzi, oznaczania halucynacji i klasyfikowania podpowiedzi.
Firmy takie jak Sama (niegdyś powiązana z OpenAI), Surge AI i Scale AI zapewniają tę siłę roboczą, często za pośrednictwem nisko opłacanych wykonawców pracujących przez wiele godzin, wielu w krajach rozwijających się. W 2023 roku raporty potwierdziły, że osoby zajmujące się etykietowaniem RLHF zarabiały od 2 do 15 dolarów za godzinę, w zależności od regionu i roli. Więc tak, prawdziwi ludzie ciągle klikają "ta odpowiedź jest lepsza". I to właśnie ta pętla sprzężenia zwrotnego zasila boty.
Jeśli przekazują Państwo ten sam rodzaj informacji zwrotnej za pomocą kciuków w górę, w zasadzie wykonują Państwo mini wersję ich pracy... za darmo.
Jak te informacje zwrotne są wykorzystywane
Tutaj robi się ciekawie. Państwa opinie nie trenują bezpośrednio głównego modelu. Zasilają one modele nagród, mniejsze systemy, które mówią głównej sztucznej inteligencji, jak ma się zachowywać. Kiedy więc mówi Pan/Pani: "Ta odpowiedź bardziej mi się podoba", pomaga Pan/Pani zbudować wewnętrzny kompas, którym kieruje się duży model. Gdy robi to wystarczająco dużo osób, SI zaczyna czuć się bardziej ludzka, bardziej uprzejma, bardziej pomocna... lub bardziej jak felietonista z problemami granicznymi.
A co z pańskim stylem pisania?
Sztuczna inteligencja zapamiętuje ton. Kiedy konsekwentnie wchodzisz z nią w interakcję w określonym stylu - sarkastycznym, akademickim lub brutalnie dosadnym - system uczy się reagować w ten sposób. Sztuczna inteligencja nie kradnie pańskiego głosu i nie sprzedaje go innym (jeszcze), ale pańskie wzorce pomagają stanowić część zbiorowego doświadczenia szkoleniowego, zwłaszcza jeśli bot widzi, że innym podoba się pańskie sformułowanie lub ton.
Nie chodzi tu o klonowanie pana, a bardziej o powielanie tego, co działa. A to, co działa, często pochodzi od kogoś, kto nigdy nie wyraził zgody na replikację stylu.
CAPTCHA nie jest już tylko dla botów
A te zagadki CAPTCHA, które rozwiązują Państwo, by udowodnić, że są ludźmi? Nie tylko klikają Państwo sygnalizację świetlną i przejścia dla pieszych, by dostać się do swojej poczty e-mail. Oznaczają Państwo dane dla modeli uczenia maszynowego. Google's reCAPTCHA, hCaptcha i Cloudflare's Turnstile dostarczają dane wizualne do potoków szkoleniowych, pomagając sztucznej inteligencji zobaczyć świat po jednym rozmytym znaku ulicznym na raz.
Więc tak, nawet Państwa weryfikacja bezpieczeństwa jest teraz częścią gospodarki opartej na sprzężeniu zwrotnym.
Wartość liczona w miliardach... Zerowa rozpoznawalność
To nie jest jakiś spisek. Rynek danych szkoleniowych kwitnie. Według MarketsandMarkets, wielkość globalnego rynku danych szkoleniowych ma wzrosnąć z 1,5 miliarda dolarów w 2023 roku do ponad 4,6 miliarda dolarów do 2030 roku. I chociaż obejmuje to dane syntetyczne i wyselekcjonowane zbiory danych, wartość danych rzeczywistych oznaczonych przez człowieka, czyli tego, co dostarczają Państwo każdego dnia, rośnie.
Mimo to większość użytkowników nadal uważa, że ich rozmowy z chatbotami znikają w eterze. Spoiler: tak nie jest. Nie, chyba że wyraźnie wyłączyłeś rejestrowanie (a nawet wtedy... ufaj, ale weryfikuj).
Końcowa myśl: Nie jest pan paranoikiem... jest pan po prostu zaangażowany
Oto klucz do sukcesu. Jesteś częścią budowania rzeczy, która może ostatecznie zastąpić twoją pracę, wyprzedzić twoją kreatywność lub zamienić twoje tweety w próbki produktów. Nie oznacza to, że powinien Pan zaprzestać korzystania ze sztucznej inteligencji, ale powinien Pan wiedzieć, do czego się Pan przyczynia. I być może, tylko być może, poprosić o odrobinę przejrzystości w zamian.
W końcu, jeśli twoja darmowa praca jest wystarczająco dobra, by kształtować następną generację modeli AI wartych miliardy dolarów, to przynajmniej mogliby podziękować.
Źródło(a)
Własne badania i doświadczenie
Udział w rynku zbiorów danych szkoleniowych AI, prognoza | Analiza wzrostu i raport trendów [2032]
Źródło zdjęcia: Vjulien Tromeur - Unsplash