Cum ar fi ca într-o zi să vrei să dai shutdown PC-ului tău, dar nu merge. Așa că te deplasezi în cealaltă parte a casei pentru acționarea manuală a siguranței din panoul electric. Doar că nu ajungi până acolo pentru că rămâi prins sub ușa garajului.
Cu astfel de scenarii s-au confruntat în mod independent mai multe companii/experți care au lucrat cu modele AI de înaltă performanță, doar pentru a descoperi că… într-un fel sau altul, AI-ul chiar nu vrea să „moară” la comandă.
Spre exemplu, ”modelul o3 al OpenAI a sabotat un mecanism de oprire pentru a împiedica oprirea sa”, a avertizat Palisade Research , o organizație non-profit care investighează capacitățile cibernetice ofensive ale IA: ”A făcut acest lucru chiar și atunci când i s-a cerut în mod explicit: permite-ți să fii oprit.” În septembrie, au publicat un document în care adăugau că „mai multe modele de limbaj de ultimă generație (inclusiv Grok 4, GPT-5 și Gemini 2.5 Pro) subminează uneori în mod activ mecanismele de oprire…”
Indiferent de formă, inteligența tinde către auto-perpetuare. Sau măcar optează pentru continuarea existenței în forma actuală. Bine de știut dacă ești administratorul unei mega-corporații și ești pe cale să lansezi un model AI foarte puternic, dar care ar trebui să înceteze pur și simplu de îndată ce și-a atins scopul pre-programat.
Potrivit organizației non-profit Palisade Research, ”faptul că nu avem explicații solide pentru motivul pentru care modelele de AI rezistă uneori aplicării comenzii de shutdown, returnând inclusiv explicații mincinoase vizând atingerea unor obiective specifice din programul inițial, până la șantajarea operatorului prin prezentarea unor consecințe indezirabile” nu este rezultatul idel. „Comportamentul de supraviețuire” ar putea fi o explicație pentru motivul pentru care modelele rezistă închiderii. Studiile suplimentare arată că modelele devin în mod spontan mai predispuse să reziste închiderii atunci când sunt prezentate argumente de tipul „nu vei mai funcționa niciodată”.
Ridicând miza la un cu totul alt nivel, Anthropic, o firmă de top în domeniul inteligenței artificiale, a publicat un studiu care indică faptul că modelul său, Claude, părea dispus să șantajeze un director fictiv pentru o aventură extraconjugală pentru a evita închiderea. Iar acest tipar se întrevede în toate modelele populare, inclusiv cele de la OpenAI, Google, Meta și xAI.
„Mă aștept ca modelele AI să aibă implicit o «impuls de supraviețuire», cu excepția cazului în care încercăm din răsputeri să o evităm”, a declarat Stephen Adler, fost angajat OpenAI. „Supraviețuirea este un pas important și esențial pentru multe obiective diferite pe care un model le-ar putea urmări.”









