Memories.ai: Membangun Memori Visual AI untuk Perangkat yang Dapat Dipakai dan Robotika

18

Memories.ai memelopori pengembangan “lapisan memori visual” untuk kecerdasan buatan, dengan fokus memungkinkan sistem AI mengingat dan memanggil kembali data visual – sebuah kemampuan yang saat ini kurang dimiliki sebagian besar aplikasi dunia fisik. Perusahaan yang didirikan oleh Shawn Shen dan Ben Zhou ini mengatasi kesenjangan kritis dalam pengembangan AI: kemampuan mesin untuk belajar dan bertindak berdasarkan pengalaman visual masa lalu.

Kebutuhan Memori Visual

Saat ini, AI unggul di bidang digital, namun kesulitan menerapkan pengalaman yang dipelajari ke dalam skenario dunia nyata. Hal ini karena sebagian besar kemajuan AI memprioritaskan memori berbasis teks, yang lebih mudah disusun dan diindeks dibandingkan data visual. Dunia fisik beroperasi berdasarkan pandangan, dan AI yang beroperasi di domain ini memerlukan cara untuk menyimpan dan mengingat informasi visual. Di sinilah Memories.ai berperan.

Para pendirinya menyadari kebutuhan ini saat mengerjakan kacamata pintar Ray-Ban Meta. Mereka mengamati bahwa jika pengguna tidak dapat mengingat data visual yang direkam dengan baik, maka kegunaan kacamata tersebut akan terbatas. Hal ini menyebabkan mereka meninggalkan Meta dan mendirikan Memories.ai pada tahun 2024, yang hingga saat ini telah mengumpulkan dana awal sebesar $16 juta.

Kemitraan dengan Nvidia

Memories.ai berkolaborasi dengan Nvidia, memanfaatkan alat seperti Cosmos-Reason 2 (model bahasa visi) dan Nvidia Metropolis (aplikasi pencarian video) untuk mempercepat teknologi memori visualnya. Kemitraan ini menyoroti meningkatnya minat industri terhadap AI yang dapat “melihat” dan mengingat. Langkah untuk memadukan pekerjaan mereka dengan infrastruktur Nvidia menunjukkan keyakinan bahwa masa depan AI akan sangat bergantung pada pemrosesan visual berperforma tinggi.

Pengumpulan Data dan Pengembangan Model

Tantangan utama dalam membangun memori visual adalah menyematkan dan mengindeks data video secara efektif untuk disimpan dan dipanggil kembali. Memories.ai mengembangkan Large Visual Memory Model (LVMM) miliknya sendiri pada Juli 2025, sebanding dengan Gemini Embedding 2 milik Google tetapi disesuaikan untuk informasi visual. Untuk melatih model ini, perusahaan menciptakan LUCI, perangkat keras berpemilik yang dipakai oleh pengumpul data untuk menangkap rekaman pelatihan. Keputusan untuk membuat perangkat keras khusus menunjukkan keterbatasan teknologi perekaman video yang ada dalam memenuhi kebutuhan pelatihan AI.

Pandangan Masa Depan

Memories.ai telah bekerja sama dengan perusahaan wearable besar (meskipun identitasnya masih dirahasiakan) dan telah menjalin kemitraan dengan Qualcomm untuk menjalankan modelnya pada prosesor Snapdragon. Perusahaan ini tetap fokus pada model dan infrastruktur yang mendasarinya dibandingkan menjadi produsen perangkat keras.

“Kami lebih fokus pada model dan infrastruktur, karena pada akhirnya kami berpikir pasar perangkat wearable dan robotika akan datang, namun mungkin tidak untuk saat ini,” kata Shen.

Hal ini menunjukkan visi jangka panjang di mana memori visual menjadi lapisan dasar untuk aplikasi AI yang lebih luas dalam robotika dan augmented reality. Pendekatan yang dilakukan perusahaan ini bukanlah mengenai produk konsumen langsung, namun lebih pada membangun teknologi inti yang akan mendukung perangkat cerdas generasi berikutnya.

Pengembangan memori visual AI masih dalam tahap awal, namun karya Memories.ai menandai langkah penting menuju mesin yang benar-benar dapat “melihat” dan belajar dari dunia fisik.