Qatar Computing Research Institute (QCRI) telah meluncurkan Fanar 2.0, peningkatan besar pada platform AI generatif yang berpusat pada Arab. Versi baru ini mencapai peningkatan kinerja yang signifikan dibandingkan pendahulunya dengan menggunakan sumber daya pelatihan yang jauh lebih sedikit, menantang anggapan konvensional bahwa AI mutakhir memerlukan daya komputasi yang besar dan ketergantungan eksternal. Perkembangan ini menempatkan Qatar sebagai pemimpin dalam pengembangan AI Arab yang independen, dan berdampak pada bidang yang lebih luas.
Inti dari Fanar 2.0: Efisiensi dan Kedaulatan
Fanar 2.0 dirancang, dibangun, dan dioperasikan sepenuhnya dalam infrastruktur QCRI di Universitas Hamad Bin Khalifa, menghilangkan ketergantungan pada penyedia AI eksternal. Proyek ini memprioritaskan tata kelola data dan sensitivitas budaya sebagai prinsip desain inti. Kedaulatan ini sangat penting, mengingat tantangan unik dalam mengembangkan AI untuk bahasa Arab, bahasa yang kurang terwakili dalam kumpulan data global.
Model bahasa platform, Fanar-27B, adalah transformator parameter berkapasitas 27 miliar yang disesuaikan dengan sekitar 120 miliar token yang dikurasi dengan cermat – sebagian kecil dari data yang digunakan untuk melatih Fanar 1.0, namun memberikan hasil yang unggul di berbagai tolok ukur.
- Peningkatan utama meliputi:
- Peningkatan 9,1 poin dalam pengetahuan dunia Arab
- Peningkatan 7,3 poin dalam pemahaman bahasa Arab secara umum
- Peningkatan 7,6 poin dalam kemampuan bahasa Inggris
- Peningkatan 3,5 poin dalam pemahaman dialek bahasa Arab
Peningkatan ini dicapai hanya dengan menggunakan 256 GPU NVIDIA H100, yang merupakan sebagian kecil dari komputasi yang tersedia di laboratorium AI besar di seluruh dunia. Hal ini menunjukkan bahwa keterbatasan sumber daya tidak perlu menghambat pengembangan AI yang berdaulat.
Komponen Khusus: Melampaui Model Bahasa Umum
Fanar 2.0 melampaui model bahasa pada umumnya, mencakup spektrum penuh aplikasi AI generatif untuk bahasa Arab: bahasa, ucapan, visi, pengetahuan Islam, puisi, terjemahan, dan penalaran agen. Komponen penting meliputi:
- FanarGuard: Filter moderasi bilingual yang mencapai keselamatan dan keselarasan budaya tercanggih dengan biaya parameter yang lebih murah dibandingkan kompetitor.
- Fanar-Sadiq: Komponen AI Islami yang ditingkatkan menggunakan arsitektur multi-agen untuk penalaran Fiqh, pengambilan Alquran, penghitungan zakat, dan banyak lagi. Ini sudah diterapkan di IslamWeb dan IslamOnline, memproses jutaan pertanyaan.
- Kemampuan ucapan baru: Aura-STT-LF, model pengenalan ucapan bentuk panjang yang berpusat pada bahasa Arab yang mampu memproses rekaman berjam-jam.
- Modul tambahan: Fanar-Diwan untuk puisi Arab klasik, FanarShaheen untuk terjemahan bahasa Arab-Inggris, dan Oryx-IVU untuk pemahaman gambar dan video yang sadar bahasa Arab.
Pentingnya AI Pengetahuan Islam
Fanar-Sadiq menonjol sebagai komponen budaya yang penting. Sistem multi-agennya menangani sembilan jenis kueri Islami yang berbeda dengan akurasi tinggi (90,1% dalam pengujian), mengungguli LLM standar.
Sistem ini menggunakan jalur validasi yang ketat untuk mencegah kesalahan kutipan Al-Quran, yang merupakan perlindungan penting bagi keakuratan agama. Dengan memisahkan pengambilan, penalaran, dan validasi ke dalam proses yang berbeda, Fanar-Sadiq menghindari masalah “halusinasi” yang umum terjadi pada AI tujuan umum ketika menangani topik keagamaan.
Kemampuan ini mengatasi kesenjangan kritis dalam pengembangan AI: kebutuhan akan sistem AI yang andal dan sesuai konteks untuk pengguna Muslim di seluruh dunia.
Arah Masa Depan: Melampaui Efisiensi hingga Kemampuan Perbatasan
Peneliti QCRI berencana untuk melampaui pra-pelatihan berkelanjutan dengan tulang punggung eksternal, yang bertujuan untuk melatih arsitektur Mixture-of-Experts baru dari awal. Meskipun kualitas melebihi kuantitas terbukti efektif, kumpulan bahasa Arab yang lebih besar dan dikurasi secara sistematis akan sangat penting untuk pertumbuhan berkelanjutan. Keselamatan multi-belokan dan penyelarasan budaya juga menjadi prioritas utama untuk iterasi di masa depan.
Ambisi jangka panjangnya adalah beralih dari negara yang hemat sumber daya ke platform AI Arab yang benar-benar terdepan dan mampu bersaing dengan para pemimpin global.
Kesimpulan: Fanar 2.0 mewakili lompatan maju yang signifikan dalam pengembangan AI independen di Arab, yang menunjukkan bahwa kinerja berkualitas tinggi dapat dicapai dengan upaya terfokus, kurasi data yang cermat, dan kendali kedaulatan. Kemajuan ini berpotensi membentuk kembali lanskap AI bagi penutur bahasa Arab dan negara-negara lain, membuktikan bahwa inovasi tidak selalu membutuhkan sumber daya yang besar.



























