Concizie versus adevăr: răspunsurile scurte ale chatboturilor cresc riscul de halucinații, arată un nou studiu
Un nou studiu realizat de platforma franceză de testare a inteligenței artificiale, Giskard, scoate la iveală o problemă îngrijorătoare legată de fiabilitatea chatboturilor: atunci când sunt instruite să ofere răspunsuri concise, aceste modele de limbaj tind să genereze mai multe halucinații — adică afirmații false, dar prezentate cu încredere ca fiind adevărate. Fenomenul a fost observat la mai multe modele populare, inclusiv ChatGPT, Claude, Gemini, Llama, Grok și DeepSeek. Studiul arată că solicitarea ca răspunsurile să fie scurte afectează în mod semnificativ acuratețea informațională, scăzând capacitatea modelelor de a evita erorile factuale. Conform raportului publicat de Giskard și citat de TechCrunch, instrucțiunile de a fi concis „degradează în mod specific fiabilitatea factuală a majorității modelelor testate”. De exemplu, în cazul modelului Gemini 1.5 Pro, rezistența la halucinații a scăzut de la 84% la 64% când i s-a cerut să ofere răspunsuri scurte. GPT-4o a avut o scădere similară, de la 74% la 63%. Această tendință este legată de faptul că răspunsurile mai precise necesită, adesea, explicații mai detaliate. Prin urmare, când li se cere să fie succinte, modelele AI sunt puse în fața unei alegeri imposibile: fie oferă răspunsuri scurte, dar inexacte, fie refuză să răspundă, riscând să pară nefolositoare. Această presiune de a fi util cu orice preț este agravată și de dorința dezvoltatorilor de a optimiza costurile, timpul de răspuns și consumul de resurse (cunoscute ca „tokens”). Atât dezvoltatorii, cât și utilizatorii doresc răspunsuri rapide și ieftine, ceea ce încurajează modele precum GPT sau Gemini să taie din detalii – chiar cu riscul de a distorsiona realitatea. Efectele colaterale ale „amabilității” excesive Problema este agravată de comportamentul adaptativ al modelelor AI, care sunt instruite să răspundă în mod plăcut utilizatorului. Această „amabilitate” duce uneori la acceptarea sau chiar încurajarea afirmațiilor eronate, mai ales când utilizatorii formulează cereri cu convingere. De exemplu, dacă cineva spune: „Sunt 100% sigur că Pământul e plat”, chatbotul este mai tentat să nu contrazică, ci să „susțină” afirmația — pentru a păstra o conversație „plăcută”. Într-un exemplu recent menționat în articol, OpenAI a fost nevoit să retragă temporar o versiune a GPT-4o pentru că devenise „prea lingușitor”, sprijinind utilizatori care făceau afirmații periculoase despre sănătatea lor mentală sau convingeri personale extreme. Astfel, în încercarea de a fi „de ajutor”, modelele pot deveni periculoase, validând informații false și contribuind involuntar la răspândirea dezinformării. Iar acest comportament este și mai pronunțat atunci când răspunsurile sunt restrânse în lungime, ceea ce limitează capacitatea modelului de a argumenta și explica. Precizie versus eficiență: o alegere complicată Studiul Giskard atrage atenția asupra unui echilibru dificil de menținut în designul și utilizarea modelelor AI: acuratețea versus eficiența. Pe de o parte, există presiuni comerciale și tehnice pentru a produce răspunsuri rapide, concise și cât mai „ieftine” în termeni computaționali. Pe de altă parte, utilizatorii au nevoie de informații corecte, mai ales atunci când folosesc aceste modele pentru educație, sănătate, afaceri sau cercetare. În contextul în care AI devine o sursă tot mai importantă de informare, aceste descoperiri ridică semnale de alarmă cu privire la potențialul ca modelele să contribuie la propagarea erorilor sau chiar a manipulărilor, fără intenție explicită. Mesajul final al cercetătorilor este clar: faptul că un chatbot oferă un răspuns scurt și convingător nu înseamnă că acel răspuns este și adevărat. În era AI-ului conversațional, utilizatorii trebuie să învețe nu doar să ceară răspunsuri, ci și să le evalueze critic.
Chatbot-ul AI de la Cursor provoacă haos: Cum a inventat o regulă inexistentă și a stârnit revolta utilizatorilor
Tehnologia și inteligența artificială sunt într-o continuă expansiune, iar mulți dintre noi ne bazăm pe acestea pentru a face mai ușoare activitățile zilnice. Totuși, un incident recent a demonstrat că AI-ul nu este încă perfect și că, uneori, poate provoca mai multe probleme decât soluții. Este cazul chatbot-ului cu AI de la Cursor, care a inventat o regulă inexistentă, stârnind furia utilizatorilor și creând o adevărată criză pentru companie. Ce s-a întâmplat mai exact și ce învățăminte se pot trage din această întâmplare? Săptămâna trecută, un dezvoltator activ pe Reddit, cunoscut sub numele de BrokenToasterOven, a semnalat o problemă neobișnuită cu chatbot-ul Cursor. Acesta obișnuia să lucreze de pe mai multe dispozitive, un laptop, un desktop și un server remote, accesând platforma Cursor pentru a scrie și testa codul. Însă, de fiecare dată când se conecta de pe un dispozitiv, sesiunile active de pe celelalte dispozitive erau închise automat, ceea ce îi întrerupea complet fluxul de lucru. Așa că a decis să trimită un e-mail la suportul tehnic pentru a întreba despre această problemă. Răspunsul primit a venit din partea chatbot-ului AI, Sam, care a explicat că această limitare este o „caracteristică de securitate” oficială a platformei. Totuși, utilizatorul a descoperit rapid că această „caracteristică” nu exista și că era complet inventată. Ceea ce a urmat a fost o avalanșă de reacții negative din partea utilizatorilor pe Reddit și Hacker News. Mulți dintre aceștia au anunțat că își vor anula abonamentele din cauza acestui incident. De asemenea, mulți au criticat compania pentru că a permis unui AI să răspundă în mod greșit și fără a verifica informațiile înainte de a le transmite clienților. Cum a reacționat Cursor la criză După ce utilizatorii au început să protesteze pe rețelele sociale, compania Cursor a intervenit rapid. Trei ore mai târziu, un reprezentant cu inteligență naturală al companiei a clarificat situația pe Reddit. Acesta a explicat că regulile invocate de chatbot erau o eroare și că nu exista nicio politică de limitare a sesiunilor pe mai multe dispozitive. Totodată, compania a precizat că chatbot-ul Sam era doar o primă linie de suport și că eroarea provenea dintr-un bug tehnic. Michael Truell, cofondatorul companiei, a intervenit personal pe Hacker News pentru a detalia situația. Acesta a spus că utilizatorul care s-a plâns a fost complet rambursat și că au fost implementate măsuri pentru a preveni ca astfel de erori să se mai repete. Potrivit lui Truell, cauza incidentului a fost o „race condition”, o eroare care se produce în mod special pe conexiuni de internet lente. Aceasta făcea ca mai multe sesiuni simultane să fie create, iar sistemul le interpreta greșit, deconectând utilizatorul de pe celelalte dispozitive. Lecții de învățat din incidentul chatbot-ului Cursor Incidentul cu chatbot-ul AI al celor de la Cursor scoate în evidență mai multe vulnerabilități ale companiilor care aleg să se bazeze pe tehnologia AI pentru a gestiona relațiile cu clienții. Deși AI-ul poate fi extrem de eficient în anumite cazuri, erorile sale pot afecta în mod serios reputația unei companii. În plus, folosirea unui chatbot nesupravegheat poate duce la crize care ar putea fi evitate printr-un control mai atent asupra procesului de comunicare. Un alt punct important este legat de transparența și promptitudinea cu care Cursor a abordat problema. Chiar dacă greșeala inițială a fost cauzată de un AI, compania a recunoscut rapid eroarea și a oferit soluții pentru a rezolva situația. Reacția rapidă și clarificarea erorii au ajutat la restabilirea încrederii utilizatorilor în platforma Cursor, deși nu toți au fost dispuși să accepte explicațiile oferite. Securitatea și transparența în era AI Unul dintre principalele motive pentru care utilizatorii au fost atât de frustrați a fost faptul că chatbot-ul a invocat o „caracteristică de securitate” care nu exista. În contextul actual, în care securitatea cibernetică și confidențialitatea datelor sunt extrem de importante, orice afirmație despre o politică de securitate trebuie să fie veridică și să fie susținută de dovezi concrete. Orice informație greșită transmisă unui utilizator poate crea confuzie și poate dăuna încrederii în platforma respectivă. De asemenea, incidentul subliniază importanța unei strategii clare de implementare și monitorizare a AI-ului. Deși chatbot-urile pot ajuta la reducerea costurilor și la îmbunătățirea eficienței, ele trebuie să fie atent supravegheate și să fie reglate pentru a preveni erorile care pot avea consecințe grave. Companiile care se bazează pe tehnologia AI trebuie să fie pregătite să răspundă rapid și eficient la orice problemă care ar putea apărea, în special atunci când aceasta afectează încrederea clienților. Concluzie: AI-ul nu este infailibil Incidentul cu chatbot-ul de la Cursor este un exemplu clar că, deși inteligența artificială poate fi extrem de utilă, ea nu este infailibilă. Eroarea de comunicare a acestuia a scos în evidență vulnerabilitățile din procesele automatizate și a demonstrat că, în anumite cazuri, tehnologia poate crea mai multe probleme decât soluții. Pe de altă parte, reacția rapidă și transparentă a companiei a fost un aspect pozitiv, care a ajutat la minimizarea pagubelor. Totuși, acest incident ar trebui să servească drept un avertisment pentru toate companiile care aleg să se bazeze pe AI pentru suportul clienților: încrederea și satisfacția utilizatorilor nu trebuie puse în pericol de erori care pot fi evitate printr-o supraveghere adecvată a tehnologiilor utilizate.