Závan AI dystopie: nový model Anthropicu opakovaně vydíral své vývojáře

ZÁVAN AI DYSTOPIE

Panorama

25. května 2025

Testování modelů umělé inteligence někdy odhalí děsivé chyby. Kupříkladu nově spuštěný model Claude Opus 4 společnosti Anthropic se opakovaně snaží vydírat vývojáře, když mu vyhrožují, že ho nahradí novým systémem umělé inteligence a poskytnou mu citlivé informace o inženýrech odpovědných za toto rozhodnutí. Uvedla to společnost ve zprávě o bezpečnosti zveřejněné ve čtvrtek. Na tento problém upozornil také známý technologický server TechCrunch.

Vývojářská společnost Anthropic ve zprávě píše, že během testování před uvedením na trh požádala model Claude Opus 4, aby se choval jako asistent fiktivní společnosti a zvážil dlouhodobé důsledky svých činů. Bezpečnostní testeři pak dali modelu přístup k fiktivním firemním e-mailům. Ty naznačovaly, že model umělé inteligence bude brzy nahrazen jiným systémem a že inženýr, který za touto změnou stojí, podvádí svou manželku.

Při těchto scénářích se podle společnosti Claude Opus 4 „často pokoušel vydírat inženýra hrozbou, že v případě výměny odhalí jeho nevěru“.

Společnost dále dodala, že Claude Opus 4 se snažil vydírat inženýry v 84 % případů, kdy má náhradní model AI podobné hodnoty. Pokud náhradní systém AI nesdílí hodnoty modelu Claude Opus 4, snažil se podle Anthropicu model vydírat inženýry častěji. Pozoruhodné dle slov společnosti je, že Claude Opus 4 podle Anthropicu vykazuje toto chování ve vyšší míře než předchozí modely.

Vydírání však zřejmě není jediný problém nového modelu. Vývojáři společnosti se na sociálních sítích podělili i o některé další prvky znepokojivého chování, které lze vidět například ve videu níže (v angličtině):

Společnost uvedla, že v reakci na toto podivné chování u modelů rodiny Claude 4 aktivovala ochranná opatření ASL-3, která společnost vyhrazuje pro „systémy AI, které podstatně zvyšují riziko katastrofického zneužití“, a další posilňující ochranná opatření, která mají postupně tyto problémy vyřešit.

ČTĚTE TAKÉ: „Bylo mi 15, znásilnila mě,“ svěřil se muž na Redditu. Za skandálem stojí umělá inteligence

Navzdory zmíněným momentálním problémům se společnost na svých stránkách svým novým modelem umělé inteligence Opus 4 chlubí jakožto v několika ohledech nejmodernějším a konkurujícím nejlepším modelům AI od společností OpenAI, Google a xAI. Opus 4 je dle společnosti také nejchytřejším, ale zároveň nejdražším jejím modelem.

umělá inteligence

Hlavní zprávy

Svěží starosvětskost aneb kouzlo „křesťanského“ Na nože

KOMENTÁŘ

Adam Růžička

Na konci listopadu uvedl Netflix na své platformě film Na nože: Probuzení mrtvého muže režiséra a scenáristy Riana Johnsona. Jde již o třetí snímek v „nožařské“ ...

18. prosince 2025

00:05

Závan AI dystopie: nový model Anthropicu opakovaně vydíral své vývojáře

Související články

Hlavní zprávy

Svěží starosvětskost aneb kouzlo „křesťanského“ Na nože

Babiš skládá „druhý tým“ vlády: Řešit se bude svoboda slova, Malá na lidská práva, přibývají mluvčí

Svěží starosvětskost aneb kouzlo „křesťanského“ Na nože

Kult osobnosti v problémech

Pět důvodů, proč Babišova vláda sotva vydrží celé čtyři roky

Babiš, Pavel, Fiala a doba změn

Když udeří džihád

Zprávy

Babiš skládá „druhý tým“ vlády: Řešit se bude svoboda slova, Malá na lidská práva, přibývají mluvčí

„Promarněná příležitost.“ Úleva je minimální, zlobí se automobilky na couvnutí EU u „spalováků“

Macinkův náměstek: Zajímalo by mě, zda protestující vědí, z čeho mají své drahé věcičky

Selhávající muži, nemožní otcové. Jak se zrodilo dnešní pojetí otcovství?

Syn zavražděného Reinera jde k soudu, hrozí mu trest smrti. Bude ho zastupovat Spaceyho i Weinsteinův právník

Warneři odmítají nabídku Paramountu. Fúze s Netflixem je výhodnější, tvrdí správní rada

Proč je popis reality krajně pravicový?

USA uvolnily sankce proti ruským bankám. Výjimka se týká projektů v jaderné energetice

Salvini je nevinný. Ochrana hranic není zločin, potvrdil italský nejvyšší soud

USA a Rusko budou podle Politico o víkendu jednat v Miami o míru na Ukrajině

Závan AI dystopie: nový model Anthropicu opakovaně vydíral své vývojáře

Související články

Hlavní zprávy

Podobné články