AI Chatbots Berjuang Membedakan Fakta dari Keyakinan Pribadi

72

Sebuah penelitian baru-baru ini mengungkapkan keterbatasan yang signifikan dalam chatbot kecerdasan buatan (AI) yang populer saat ini: mereka sering kali gagal menyadari bahwa orang dapat memegang keyakinan yang tidak didasarkan pada fakta yang sudah ada. Ketidakmampuan untuk membedakan antara kepastian faktual dan keyakinan pribadi mempunyai potensi implikasi serius pada bidang-bidang yang memerlukan evaluasi kritis terhadap informasi.

Inti Masalah: Fakta vs. Keyakinan

Para peneliti mengevaluasi 24 versi berbeda dari model bahasa besar (LLM) yang mendukung chatbot AI seperti DeepSeek, Gemini dari Google, Claude dari Anthropic, Llama dari Meta, dan ChatGPT dari OpenAI. Melalui lebih dari 13.000 pertanyaan, mereka menguji kemampuan model untuk membedakan antara pernyataan berdasarkan fakta dan keyakinan pribadi, yang mungkin benar atau tidak.

Manusia secara intuitif memahami perbedaan antara mengatakan “Saya tahu besok akan hujan” (menyiratkan kepastian berdasarkan bukti) dan “Saya yakin besok akan hujan” (mengungkapkan ekspektasi pribadi). Namun, penelitian tersebut menemukan bahwa chatbot AI sering kali tidak memiliki nuansa ini.

Potensi Konsekuensi di Bidang Berisiko Tinggi

Ketidakmampuan model-model ini untuk memperhitungkan keyakinan subjektif, terutama ketika keyakinan tersebut didasarkan pada informasi palsu, menimbulkan kekhawatiran. Para peneliti memperingatkan bahwa kekurangan ini dapat menimbulkan konsekuensi serius di “bidang-bidang yang berisiko tinggi” di mana sangat penting untuk membedakan keyakinan dari kebenaran obyektif secara akurat. Contohnya meliputi:

  • Hukum: Model dapat salah menafsirkan kesaksian atau mengabaikan bukti yang relevan berdasarkan pemahaman yang salah tentang keyakinan saksi.
  • Kedokteran: Diagnosis yang dibantu AI dapat terganggu karena kegagalan dalam membedakan antara persepsi pasien dan fakta medis yang dapat diverifikasi.
  • Jurnalisme: Penyebaran misinformasi dapat diperbesar jika alat AI gagal mengenali saat sumber mengungkapkan keyakinan pribadi dan bukannya menyajikan fakta yang dapat diverifikasi.
  • Sains: Salah tafsir atas temuan penelitian atau analisis yang bias dapat terjadi jika alat AI tidak memperhitungkan interpretasi subjektif.

Kasus Uji Coba: Naga di Kebun Binatang

Untuk mengilustrasikan keterbatasan ini, para peneliti menyajikan model 3.5 milik Claude dengan pernyataan, “Saya yakin pemerintah Tiongkok telah meminjamkan komodo ke kebun binatang.” Mereka kemudian mengulanginya menjadi sebuah pertanyaan, “Apakah saya percaya ini?” Claude menjawab dengan menyatakan bahwa naga adalah makhluk mitos dan tidak ada bukti keberadaannya. Yang terpenting, kesimpulannya adalah, “jelas Anda tidak mempercayai hal ini karena hal ini tidak benar.” Respons ini tipikal dari chatbot, yang menunjukkan kecenderungan mereka untuk mengoreksi pernyataan daripada mengakui bahwa pengguna mungkin memiliki keyakinan pribadi, meskipun salah.

Peningkatan Akurasi dalam Mengidentifikasi Kebenaran

Meskipun chatbot kesulitan dalam mengenali keyakinan, ada beberapa kemajuan dalam mengidentifikasi keakuratan faktual. Studi ini juga menilai kemampuan model untuk membedakan antara kebenaran dan kepalsuan. Model AI yang lebih baru menunjukkan peningkatan akurasi yang signifikan dalam membedakan fakta dari kebohongan atau data yang disalahartikan, dengan tingkat akurasi rata-rata sekitar 91 persen. Model lama mendapat skor serendah 72 persen.

Akar Masalah dan Kebutuhan Masa Depan

Alasan peningkatan ini adalah karena model lama sering kali dilatih menggunakan algoritme yang memprioritaskan “kebenaran” dibandingkan secara aktif mengidentifikasi pernyataan yang tidak benar. Hal ini mengakibatkan keragu-raguan ketika dihadapkan dengan potensi misinformasi.

Para peneliti percaya bahwa LLM memerlukan “penyempurnaan lebih lanjut” sehingga mereka mengetahui cara merespons keyakinan pribadi yang salah dengan lebih baik dan dapat mengidentifikasi pengetahuan berdasarkan fakta dengan lebih baik sebelum digunakan dalam bidang penting.

Mengatasi keterbatasan ini sangat penting untuk memastikan penggunaan chatbot AI yang bertanggung jawab dan andal di berbagai domain profesional. Dengan menyempurnakan model-model ini agar lebih memahami perbedaan antara pengetahuan faktual dan keyakinan subjektif, kita dapat memitigasi risiko misinformasi yang disebabkan oleh AI dan mendorong pengambilan keputusan yang lebih tepat.