توصل فريق بحثي متخصص في الذكاء الاصطناعي بجامعة بوليتكنيك في فالنسيا بإسبانيا إلى أنه كلما أصبحت نماذج اللغة الكبيرة أكبر حجمًا وأكثر تعقيدًا، فإنها تميل إلى أن تكون أقل عرضة للاعتراف للمستخدمين بأنها لا تعرف الإجابة.
كلما كان الذكاء الاصطناعي أكثر ذكاءً، كلما قل احتمال اعترافه للمستخدمين بأنه لا يعرف الإجابة. (رسم توضيحي للذكاء الاصطناعي) |
وفي الدراسة التي نشرت في مجلة Nature ، اختبر الفريق أحدث إصدارات ثلاثة من روبوتات الدردشة الذكية الأكثر شعبية من حيث الاستجابة والدقة وقدرة المستخدمين على اكتشاف الإجابات غير الصحيحة.
لاختبار دقة اختبارات الماجستير في القانون الثلاثة الأكثر شيوعًا، وهي BLOOM وLLAMA وGPT، طرح الفريق آلاف الأسئلة وقارن الإجابات الواردة بالإصدارات السابقة من نفس الأسئلة. كما قاموا بتنويع المواضيع، بما في ذلك الرياضيات والعلوم وألغاز الكلمات والجغرافيا، بالإضافة إلى القدرة على توليد النصوص أو تنفيذ إجراءات مثل فرز القوائم.
كشفت الدراسة عن بعض الاتجاهات الملحوظة. فقد تحسّنت دقة روبوتات الدردشة بشكل عام مع كل إصدار جديد، لكنها استمرت في الانخفاض عند مواجهة أسئلة أكثر صعوبة. ومن المثير للدهشة أنه مع ازدياد حجم برامج الماجستير في القانون وتطورها، أصبحت أقل انفتاحًا بشأن قدرتها على الإجابة بشكل صحيح.
في الإصدارات السابقة، كانت معظم برامج اختبار اللغة الإنجليزية تُبلغ المستخدمين صراحةً عندما لا يجدون إجابة أو يحتاجون إلى مزيد من المعلومات. على النقيض من ذلك، تميل الإصدارات الأحدث إلى التخمين أكثر، مما ينتج عنه عدد أكبر من الإجابات، سواءً الصحيحة أو الخاطئة. والأمر الأكثر إثارة للقلق هو أن الدراسة وجدت أن جميع برامج اختبار اللغة الإنجليزية لا تزال تُعطي أحيانًا إجابات غير صحيحة حتى للأسئلة السهلة، مما يُشير إلى أن موثوقيتها لا تزال بحاجة إلى تحسين.
تسلط هذه النتائج الضوء على مفارقة في تطور الذكاء الاصطناعي: ففي حين أصبحت النماذج أكثر قوة، فإنها قد تصبح أيضًا أقل شفافية بشأن حدودها.
ويطرح هذا تحديات جديدة فيما يتعلق باستخدام أنظمة الذكاء الاصطناعي والثقة بها، مما يتطلب من المستخدمين أن يكونوا أكثر حذراً ومن المطورين التركيز على تحسين ليس فقط دقة النماذج ولكن أيضًا "الوعي الذاتي".
[إعلان 2]
المصدر: https://baoquocte.vn/cang-thong-minh-tri-tue-nhan-tao-cang-co-xu-huong-giau-dot-287987.html
تعليق (0)