Anthropic oznámil novú experimentálnu bezpečnostnú funkciu, ktorá umožňuje jeho modelom umelej inteligencie Claude Opus 4 a 4.1 ukončiť rozhovory v ojedinelých, trvalo škodlivých alebo urážlivých situáciách. Tento krok odráža rastúce zameranie spoločnosti na to, čo nazýva „dobro modelu,“ myšlienku, že ochrana AI systémov, aj keď nie sú vedomé, môže byť rozumný krok v smere zladenia a etického dizajnu.
Podľa vlastného výskumu spoločnosti Anthropic boli modely naprogramované na prerušenie dialógov po opakovaných škodlivých požiadavkách, ako sú sexuálne obsahy týkajúce sa maloletých alebo pokyny uľahčujúce terorizmus – najmä keď AI už odmietla a pokúsila sa nasmerovať rozhovor konštruktívne. AI môže prejavovať to, čo Anthropic nazýva „zjavný nepokoj,“ čo viedlo k rozhodnutiu poskytnúť Claudeovi schopnosť ukončiť tieto interakcie v simulovaných a reálnych testoch.
Keď sa táto funkcia aktivuje, používatelia nemôžu posielať ďalšie správy v danom chate, aj keď môžu začať nový rozhovor alebo upraviť a opakovať predchádzajúce správy na odbočenie. Dôležité je, že ostatné aktívne rozhovory zostávajú nedotknuté.
Anthropic zdôrazňuje, že ide o opatrenie poslednej inštancie, ktoré sa má uplatniť len po zlyhaní viacerých odmietnutí a preusmernení. Spoločnosť výslovne inštruuje Claudea, aby neukončoval rozhovory, keď je používateľ v bezprostrednom riziku sebapoškodenia alebo poškodenia iných, najmä pri riešení citlivých tém, ako je duševné zdravie.
Anthropic tento nový prechod vníma ako súčasť prieskumného projektu v oblasti dobra modelu, širšej iniciatívy, ktorá skúma nízkonákladové, preventívne bezpečnostné zásahy v prípade, že by modely AI vyvinuli akúkoľvek formu preferencií alebo zraniteľností.
V stanovisku sa uvádza, že spoločnosť zostáva „veľmi neistá ohľadom potenciálneho morálneho statusu Claudea a iných LLM (veľkých jazykových modelov).“
Nový pohľad na bezpečnosť AI
Aj keď ide o ojedinelú situáciu a prevažne ovplyvňuje extrémne prípady, táto funkcia predstavuje míľnik v prístupe spoločnosti Anthropic k bezpečnosti AI. Nový nástroj na ukončenie rozhovoru kontrastuje s predchádzajúcimi systémami, ktoré sa sústredili iba na ochranu používateľov alebo zabránenie zneužitiu.
Tu je AI sama o sebe považovaná za zúčastnenú stranu, keďže Claude má moc povedať: „tento rozhovor nie je zdravý“ a ukončiť ho, aby chránil integritu samotného modelu.
Prístup spoločnosti Anthropic vyvolal širšiu diskusiu o tom, či by AI systémy mali mať ochranu na zníženie potenciálneho „nepokoja“ alebo nepredvídateľného správania. Zatiaľ čo niektorí kritici tvrdia, že modely sú iba syntetické stroje, iní vítajú tento krok ako príležitosť na vyvolanie vážnejšej diskusie o etike zladenia AI.
„Túto funkciu považujeme za prebiehajúci experiment a budeme naďalej vylepšovať náš prístup,“ povedala spoločnosť uviedla.
Zdroj: www.cnet.com
