Anthropic telah mengumumkan solusi untuk masalah yang terus-menerus terjadi dalam pengembangan agen AI: retensi memori pada tugas-tugas yang diperluas. Masalahnya, yang biasa terjadi pada aplikasi perusahaan, membuat agen “lupa” instruksi atau konteks sebelumnya ketika sesi diperpanjang, sehingga menyebabkan perilaku tidak konsisten dan tidak dapat diandalkan. Hal ini penting karena penerapan AI di dunia nyata memerlukan agen yang dapat beroperasi secara mandiri selama berjam-jam, berhari-hari, atau bahkan lebih lama tanpa kehilangan sasaran.
Tantangan Memori Agen
Model dasar, termasuk model yang mendukung agen AI, dibatasi oleh jendela konteks — jumlah teks yang dapat diproses sekaligus. Untuk proyek yang kompleks, agen pasti beroperasi dalam beberapa sesi, sehingga menciptakan kesenjangan kritis dalam kesinambungan. Tanpa ingatan yang dapat diandalkan, mereka dapat mengulangi pekerjaan, membuat keputusan yang tidak logis, atau menyatakan tugas selesai sebelum waktunya. Hal ini mendorong lonjakan solusi yang berfokus pada memori, dengan perusahaan seperti LangChain, Memobase, dan OpenAI (Swarm) menawarkan kerangka kerja untuk menjembatani kesenjangan ini. Penelitian akademis juga semakin cepat, dengan proyek seperti Memp dan Paradigma Pembelajaran Bersarang Google yang mendorong batas-batas memori agen.
Solusi Dua Bagian Anthropic
Pendekatan Anthropic menargetkan keterbatasan ini dalam Claude Agent SDK-nya. Daripada hanya mengandalkan jendela konteks yang lebih besar, perusahaan mengusulkan sistem dua agen:
– Agen Penginisialisasi: Menyiapkan lingkungan, mencatat kemajuan dan dependensi.
– Agen Pengkode: Melakukan peningkatan bertahap di setiap sesi, meninggalkan pembaruan yang jelas untuk iterasi berikutnya.
Hal ini meniru alur kerja insinyur perangkat lunak manusia, yang memecah tugas-tugas kompleks menjadi langkah-langkah yang dapat dikelola, mendokumentasikan kemajuan, dan mengembangkan pekerjaan sebelumnya. Anthropic menemukan bahwa hanya mendorong agen dengan tujuan yang tidak jelas (“membangun tiruan dari claude.ai”) menghasilkan dua kegagalan umum: agen mencoba terlalu banyak sekaligus, melebihi batas konteks, atau menyatakan penyelesaian sebelum waktunya setelah hanya membangun solusi parsial.
Pengujian dan Penelitian Masa Depan
Para peneliti Anthropic mengintegrasikan alat pengujian ke dalam agen pengkodean, memungkinkannya mengidentifikasi dan memperbaiki kesalahan di luar apa yang disarankan oleh kode itu sendiri. Perusahaan mengakui bahwa ini hanyalah salah satu solusi potensial di bidang yang berkembang pesat. Masih belum jelas apakah agen pengkodean tunggal yang universal akan mengungguli struktur multi-agen yang terspesialisasi.
Pengujian saat ini berfokus pada pengembangan aplikasi web full-stack, namun Anthropic yakin prinsip-prinsip tersebut dapat ditransfer ke domain lain, termasuk penelitian ilmiah dan pemodelan keuangan. Kesimpulan intinya jelas: Memori agen jangka panjang yang andal memerlukan lingkungan terstruktur, kemajuan bertahap, dan pencatatan log yang konsisten — mencerminkan praktik rekayasa perangkat lunak manusia yang telah terbukti.





























