Anthropic hat eine Lösung für ein anhaltendes Problem bei der Entwicklung von KI-Agenten angekündigt: Speichererhaltung bei längeren Aufgaben. Das bei Unternehmensanwendungen häufig auftretende Problem besteht darin, dass Agenten frühere Anweisungen oder den Kontext „vergessen“, wenn Sitzungen länger werden, was zu inkonsistentem und unzuverlässigem Verhalten führt. Dies ist wichtig, da reale KI-Einsätze Agenten erfordern, die stunden-, tage- oder sogar länger autonom agieren können, ohne die Ziele aus den Augen zu verlieren.
Die Agentengedächtnis-Herausforderung
Foundation-Modelle, einschließlich derjenigen, die KI-Agenten antreiben, sind durch Kontextfenster begrenzt – die Textmenge, die sie gleichzeitig verarbeiten können. Bei komplexen Projekten arbeiten Agenten zwangsläufig über mehrere Sitzungen hinweg, wodurch eine kritische Lücke in der Kontinuität entsteht. Ohne zuverlässiges Gedächtnis können sie Aufgaben wiederholen, unlogische Entscheidungen treffen oder Aufgaben vorzeitig für erledigt erklären. Dies hat zu einem Anstieg speicherorientierter Lösungen geführt, wobei Unternehmen wie LangChain, Memobase und OpenAI (Swarm) Frameworks anbieten, um diese Lücke zu schließen. Auch die akademische Forschung nimmt Fahrt auf, wobei Projekte wie Memp und Googles Nested Learning Paradigm die Grenzen des Agentengedächtnisses erweitern.
Die zweiteilige Lösung von Anthropic
Der Ansatz von Anthropic zielt auf diese Einschränkungen innerhalb seines Claude Agent SDK ab. Anstatt sich ausschließlich auf größere Kontextfenster zu verlassen, schlägt das Unternehmen ein Zwei-Agenten-System vor:
– Initializer-Agent: Richtet die Umgebung ein und protokolliert den Fortschritt und die Abhängigkeiten.
– Coding Agent: Führt in jeder Sitzung schrittweise Verbesserungen durch und hinterlässt klare Aktualisierungen für die nächste Iteration.
Dies ahmt den Arbeitsablauf menschlicher Softwareentwickler nach, die komplexe Aufgaben in überschaubare Schritte zerlegen, den Fortschritt dokumentieren und auf früheren Arbeiten aufbauen. Anthropic stellte fest, dass die bloße Aufforderung an einen Agenten mit einem vagen Ziel („einen Klon von claude.ai erstellen“) zu zwei häufigen Fehlern führte: Entweder versuchte der Agent zu viel auf einmal und überschritt die Kontextgrenzen, oder er erklärte vorzeitig den Abschluss, nachdem er nur eine Teillösung erstellt hatte.
Tests und zukünftige Forschung
Die Forscher von Anthropic haben Testtools in den Codierungsagenten integriert, sodass dieser Fehler identifizieren und beheben kann, die über das hinausgehen, was der Code allein vermuten lässt. Das Unternehmen erkennt an, dass dies nur eine mögliche Lösung in einem sich schnell entwickelnden Bereich ist. Es bleibt unklar, ob ein einzelner, universeller Codierungsagent spezialisierte Multiagentenstrukturen übertreffen wird.
Aktuelle Tests konzentrieren sich auf die Entwicklung von Full-Stack-Web-Apps, aber Anthropic ist davon überzeugt, dass die Prinzipien auf andere Bereiche übertragbar sind, einschließlich wissenschaftlicher Forschung und Finanzmodellierung. Die Kernaussage ist klar: Zuverlässiges Langzeitgedächtnis von Agenten erfordert strukturierte Umgebungen, inkrementellen Fortschritt und konsistente Protokollierung – was bewährte menschliche Software-Engineering-Praktiken widerspiegelt.
