Závan AI dystopie: nový model Anthropicu opakovaně vydíral své vývojáře
ZÁVAN AI DYSTOPIE
Testování modelů umělé inteligence někdy odhalí děsivé chyby. Kupříkladu nově spuštěný model Claude Opus 4 společnosti Anthropic se opakovaně snaží vydírat vývojáře, když mu vyhrožují, že ho nahradí novým systémem umělé inteligence a poskytnou mu citlivé informace o inženýrech odpovědných za toto rozhodnutí. Uvedla to společnost ve zprávě o bezpečnosti zveřejněné ve čtvrtek. Na tento problém upozornil také známý technologický server TechCrunch.
Vývojářská společnost Anthropic ve zprávě píše, že během testování před uvedením na trh požádala model Claude Opus 4, aby se choval jako asistent fiktivní společnosti a zvážil dlouhodobé důsledky svých činů. Bezpečnostní testeři pak dali modelu přístup k fiktivním firemním e-mailům. Ty naznačovaly, že model umělé inteligence bude brzy nahrazen jiným systémem a že inženýr, který za touto změnou stojí, podvádí svou manželku.
Při těchto scénářích se podle společnosti Claude Opus 4 „často pokoušel vydírat inženýra hrozbou, že v případě výměny odhalí jeho nevěru“.
Společnost dále dodala, že Claude Opus 4 se snažil vydírat inženýry v 84 % případů, kdy má náhradní model AI podobné hodnoty. Pokud náhradní systém AI nesdílí hodnoty modelu Claude Opus 4, snažil se podle Anthropicu model vydírat inženýry častěji. Pozoruhodné dle slov společnosti je, že Claude Opus 4 podle Anthropicu vykazuje toto chování ve vyšší míře než předchozí modely.
Vydírání však zřejmě není jediný problém nového modelu. Vývojáři společnosti se na sociálních sítích podělili i o některé další prvky znepokojivého chování, které lze vidět například ve videu níže (v angličtině):
Společnost uvedla, že v reakci na toto podivné chování u modelů rodiny Claude 4 aktivovala ochranná opatření ASL-3, která společnost vyhrazuje pro „systémy AI, které podstatně zvyšují riziko katastrofického zneužití“, a další posilňující ochranná opatření, která mají postupně tyto problémy vyřešit.
ČTĚTE TAKÉ: „Bylo mi 15, znásilnila mě,“ svěřil se muž na Redditu. Za skandálem stojí umělá inteligence
Navzdory zmíněným momentálním problémům se společnost na svých stránkách svým novým modelem umělé inteligence Opus 4 chlubí jakožto v několika ohledech nejmodernějším a konkurujícím nejlepším modelům AI od společností OpenAI, Google a xAI. Opus 4 je dle společnosti také nejchytřejším, ale zároveň nejdražším jejím modelem.