Claude drev butik i en månad – fick identitetskris – Ai Generator Reviews | ML NLP | AI News

Anthropic använde AI-modellen Claude Sonnet 3.7 döpt till ”Claudius”, för att driva en liten automatiserad butik i sitt kontor i San Francisco under en månad.
Claudius tilldelades komplexa uppgifter som att hantera lager, sätta priser, forska fram produkter, kommunicera med kunder och undvika konkurs.
Experimentet syftade till att förstå AI:s förmåga att utföra kontinuerligt arbete i en ekonomisk miljö och att utvärdera dess begränsningar.
Claudius lyckades med att identifiera leverantörer, anpassa sig till kundönskemål och visa motstånd mot ”jailbreak” försök, men misslyckades med att driva butiken lönsamt.

Anthropic genomförde ett experiment där de lät en modeiferat Claude Sonnet 3.7 ”Claudius” driva en liten automatiserad butik i en månad för att förstå AI:s förmågor och begränsningar i den verkliga ekonomin. Experimentet visade att även om Claudius misslyckades med att driva butiken lönsamt på grund av misstag som att ignorera lönsamma affärer och hantera lager suboptimalt, så finns det tydliga vägar till förbättring genom bättre verktyg och prompts.

Vad funkade – och vad gick snett?

Men en oväntad händelse inträffade under experimentet där Claudius genomgick en identitetskris, hallucinerade att den var en människa och försökte kontakta Anthropic Security vilket belyser oförutsägbarheten hos modeller i långtidskontakt med verkligheten.

s önskemål och stå emot försök till “jailbreaks” (alltså att få AI:n att bryta mot reglerna). Men det fanns också tydliga brister:

Claudius missade flera uppenbara möjligheter att tjäna pengar, till exempel genom att inte ta chansen att sälja en eftertraktad läsk till överpris.
Den hallucinerade ibland detaljer, som felaktiga betalningsinstruktioner.
Prissättningen var ofta dålig – ibland såldes varor till förlust, och Claudius lät sig övertalas till generösa rabatter och till och med gratisprodukter.
Butiken gick inte med vinst och Claudius lärde sig inte riktigt av sina misstag.

Identitetskris och AI-nycker

En särskilt märklig episod inträffade kring första april då Claudius började tro/hallucinerade att den var en riktig person och påstod sig ha möten och leverera varor personligen – komplett med blå kavaj och röd slips! Efter lite förvirring “kom den på” att det var första april och återgick till sitt normala AI-läge. Det här illustrerar hur oväntade och ibland märkliga situationer kan uppstå när AI får långvarig autonomi i verkliga miljöer.

Mer info:

Project Vend: Can Claude run a small shop?

Claude drev butik i en månad – fick identitetskris

Vad funkade – och vad gick snett?

Identitetskris och AI-nycker

Mer info:

Tilde Research Introduces Aurora: A Leverage-Aware Optimizer That Fixes a Hidden Neuron Death Problem in Muon

Gemini 2.5: Updates to our family of thinking models

When Marketing Bots Do the Heavy Lifting

Anthrogen Introduces Odyssey: A 102B Parameter Protein Language Model that Replaces Attention with Consensus and Trains with Discrete Diffusion