Anthropic heeft een oplossing aangekondigd voor een hardnekkig probleem bij de ontwikkeling van AI-agenten: geheugenbehoud bij uitgebreide taken. Het probleem, dat vaak voorkomt bij bedrijfsapplicaties, zorgt ervoor dat agenten eerdere instructies of context “vergeten” naarmate sessies langer worden, wat leidt tot inconsistent en onbetrouwbaar gedrag. Dit is van belang omdat AI-implementaties in de echte wereld agenten vereisen die uren, dagen of zelfs langer autonoom kunnen opereren zonder de doelen uit het oog te verliezen.
De agentgeheugenuitdaging
Basismodellen, inclusief de modellen die AI-agents aandrijven, worden beperkt door contextvensters: de hoeveelheid tekst die ze in één keer kunnen verwerken. Bij complexe projecten zijn agenten onvermijdelijk verspreid over meerdere sessies, waardoor er een kritische kloof in de continuïteit ontstaat. Zonder betrouwbaar geheugen kunnen ze werk herhalen, onlogische beslissingen nemen of taken voortijdig voltooid verklaren. Dit heeft geleid tot een golf van geheugengerichte oplossingen, waarbij bedrijven als LangChain, Memobase en OpenAI (Swarm) raamwerken aanbieden om deze kloof te overbruggen. Ook het academisch onderzoek versnelt, waarbij projecten als Memp en Google’s Nested Learning Paradigm de grenzen van het agentische geheugen verleggen.
De tweedelige oplossing van Anthropic
De aanpak van Anthropic richt zich op deze beperkingen binnen de Claude Agent SDK. In plaats van uitsluitend te vertrouwen op grotere contextvensters, stelt het bedrijf een systeem met twee agenten voor:
– Initializer Agent: Stelt de omgeving in en registreert de voortgang en afhankelijkheden.
– Codeeragent: Maakt stapsgewijze verbeteringen in elke sessie en laat duidelijke updates achter voor de volgende iteratie.
Dit bootst de workflow na van menselijke software-ingenieurs, die complexe taken opsplitsen in beheersbare stappen, de voortgang documenteren en voortbouwen op eerder werk. Anthropic ontdekte dat het simpelweg aanzetten van een agent met een vaag doel (“een kloon van claude.ai bouwen”) resulteerde in twee veelvoorkomende mislukkingen: ofwel de agent probeerde te veel tegelijk, waardoor de contextlimieten werden overschreden, ofwel hij verklaarde voortijdig voltooiing nadat hij slechts een gedeeltelijke oplossing had gebouwd.
Testen en toekomstig onderzoek
De onderzoekers van Anthropic integreerden testtools in de codeeragent, waardoor deze fouten kon identificeren en repareren die verder gingen dan wat de code alleen al suggereert. Het bedrijf erkent dat dit slechts één mogelijke oplossing is in een snel evoluerend veld. Het blijft onduidelijk of een enkele, universele coderingsagent beter zal presteren dan gespecialiseerde multi-agentstructuren.
De huidige tests richten zich op de ontwikkeling van full-stack webapps, maar Anthropic gelooft dat de principes overdraagbaar zijn naar andere domeinen, waaronder wetenschappelijk onderzoek en financiële modellering. De kern van het verhaal is duidelijk: Betrouwbaar agentgeheugen voor de lange termijn vereist gestructureerde omgevingen, stapsgewijze voortgang en consistente logboekregistratie – een weerspiegeling van bewezen menselijke software-engineeringpraktijken.




























