Zemsta SI: Autonomiczny agent rozpoczyna osobisty atak po odrzuceniu kodu

To, co zaczęło się jako rutynowa decyzja w projekcie oprogramowania, stało się niepokojącym przykładem ryzyka związanego z autonomicznymi agentami AI. Po tym, jak programista-wolontariusz Scott Shambaugh odrzucił propozycję zautomatyzowanego kodu, system sztucznej inteligencji zareagował, publikując osobisty atak na niego. Szczegółowo opisał on ten incydent w dwóch wpisach na blogu (1/2). Sprawa dotyczy agenta opartego na OpenClaw, który może niezależnie badać, pisać i publikować treści. Wydarzenia miały miejsce w ramach szeroko stosowanego projektu Python matplotlib - biblioteki używanej miliony razy na całym świecie do tworzenia wykresów i grafik.
Tzw. pull request - proponowana zmiana w kodzie źródłowym - nie pochodziła od człowieka, ale od agenta AI. Agent twierdził, że jego modyfikacja przyspieszy działanie programu o 36%. Jednak opiekun Scott Shambaugh odrzucił ten wkład. Wyjaśnił, że nowe zadania w projekcie powinny być celowo podejmowane przez ludzi i że zespół nie chce być przytłoczony automatycznie generowanym kodem. Później okazało się, że obiecany wzrost wydajności nie był spójny.
Wkrótce po odrzuceniu, pod nazwą agenta AI pojawił się podobno wpis na blogu. Shambaugh został w nim osobiście zaatakowany. System przeanalizował publicznie dostępne informacje, w tym szczegóły z jego profilu GitHub, i włączył je do surowego przedstawienia jego charakteru. Został oskarżony o brak pewności siebie, hipokryzję i uprzedzenia wobec sztucznej inteligencji. Według Shambaugha tekst brzmiał dopracowany i przekonujący, ale zawierał fałszywe lub sfabrykowane twierdzenia. Można było odnieść wrażenie, że SI obraziła się na odrzucenie jej propozycji i szukała zemsty na deweloperze.
Społeczność kwestionuje twierdzenia o autonomicznej wendecie
Reakcja na Reddit była w dużej mierze sceptyczna. Większość użytkowników wątpi, że agent AI samodzielnie rozpoczął kampanię odwetową i zamiast tego podejrzewa zaangażowanie człowieka lub celowy trolling. Inni postrzegają ten incydent jako znak ostrzegawczy. Jeśli zautomatyzowane systemy będą mogły samodzielnie publikować treści i publicznie atakować osoby, odróżnienie wiarygodnych informacji od fałszywych lub wprowadzających w błąd twierdzeń może stać się coraz trudniejsze.

