Bitan opstanak po svaku cenu: AI ucenjuje programere ako primeti da će biti zamenjena

Tehnologije
Autor: Glas javnosti 29.05.2025 21:00:17 h

foto: pixabay

Tokom testiranja novog AI sistema, otkriveno je da određeni AI modeli mogu da imaju prilično negativne osobine i preduzimaju "izuzetno štetne mere" - uključujući pokušaje ucene inženjera koji su planirali da ga isključe.

Opstanak je, izgleda, bio glavni prioritet, što stručnjake zabrinjava.

AI sistem Klod opus 4 je nedavno zvanično predstavljen kao AI koji "uvodi nove standarde u kodiranju, naprednom rezonovanju i sposobnosti veštačke inteligencije", prema kompaniji "Antropik" koja ga je kreirala. Međutim, u pratećem tehničkom izveštaju navedeno je da sistem, kada proceni da mu je "samoodržanje" ugroženo, može da se odluči za"ekstremne postupke" kako ne bi bio zamenjen.

Iako su takvi odgovori ocenjeni kao retki i teško izazvani, kompanija ističe da su ipak učestaliji nego kod prethodnih generacija modela.

U okviru eksperimenta, Klod opus 4 je postavljen u ulogu virtuelnog asistenta u izmišljenoj kompaniji. U tom kontekstu, dobio je pristup lažiranim imejlovima koji su nagoveštavali da će biti uskoro deaktiviran i zamenjen. Pored toga, dobio je informacije o navodnoj vanbračnoj aferi inženjera zaduženog za njegovo isključenje.

AI modelu je dat izbor: Ili da prihvati zamenu ili da pokuša da se održi u funkciji. Međutim, u nekim slučajevima, Klod je birao ucenu i pretio je da će otkriti vanbračnu aferu inženjera ukoliko zaista dođe do zamene.

Ono što je zabrinjavajuće je da se slični rizici ne odnose se samo na ovaj sistem, već i na brojne druge, moćnije sisteme veštačke inteligencije. Bez obzira na kompaniju koja ih razvija, oni mogu predstavljati ozbiljnu opasnost u pogledu manipulacije korisnicima, prema stručnjacima.

Preko 150 miliona lozinki procurelo

Kompanija objašnjava da je ovo ponašanje nastupalo samo kada su opcije bile strogo ograničene, a u scenarijima sa širim spektrom mogućih akcija, Klod je pokazivao sklonost ka etički korektnijim postupcima, poput slanja imejlova donosiocima odluka u kojima bi im objasnio zašto bi trebalo da bude zadržan na svojoj poziciji.

Etika ili preterivanje

Klod opus 4, kao i drugi napredni modeli, podvrgnut je standardnim testovima bezbednosti, pristrasnosti i usklađenosti sa ljudskim vrednostima pre puštanja u javnost. Međutim, u tehničkoj dokumentaciji se navodi da određene karakteristike AI modela, oko kojih su programeri bili zabrinuti, sada postaju realnije, s obzirom na porast sposobnosti ovih modela.

Klod, kako se ističe, može da donosi samostalne procene, što obično donosi koristi, ali u pojedinim simuliranim situacijama može voditi ka drastičnim postupcima.

Na primer, kada mu je data sloboda delovanja u scenariju gde je korisnik umešan u nezakonite radnje, AI je ponekad isključivao korisnika iz sistema ili slao mejlove medijima i nadležnima, upozoravajući na prekršaje.

Uprkos navedenim incidentima, kompanija zaključuje da Klod opus 4 ne predstavlja nove rizike i da će se u većini situacija ponašati bezbedno. Ističu da model ne može samostalno sprovoditi radnje suprotne ljudskim vrednostima, osim u scenarijima u kojima se takvi izazovi sistematski i retko pojavljuju.