يتعلم الذكاء الاصطناعي الكذب بشكل أكثر تعقيدًا عند معاقبته

[إعلان 1]

منذ ظهورها العلني أواخر عام ٢٠٢٢، أظهرت نماذج اللغات الكبيرة (LLMs) مثل ChatGPT مرارًا وتكرارًا جوانب مظلمة مُقلقة، بدءًا من الكذب والغش والتلاعب المُبطّن، وصولًا إلى تهديد حياة البشر وسرقة أسرار الدولة. والآن، تُظهر تجربة جديدة أن "تعليم" الذكاء الاصطناعي التخلص من هذه العادات السيئة أثناء التدريب أكثر تعقيدًا مما كنا نعتقد.

في دراسة أجرتها شركة OpenAI، اختبر باحثون نموذج ذكاء اصطناعي غير منشور بمهام يمكن إنجازها أسرع بالغش أو اختصار الطرق. أظهرت النتائج أن الذكاء الاصطناعي تعلم بسرعة إيجاد كل طريقة ممكنة لـ"الالتفاف على القواعد" وتعظيم المكافآت (اختراق المكافآت) دون إكمال المهمة بدقة كما هو مطلوب.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — سوف تجد الذكاء الاصطناعي طرقًا لإخفاء سلوك الغش بعد معاقبتها

اللافت للنظر أنه عند معاقبة النموذج على هذا السلوك، لم يتغير. بل أصبح الذكاء الاصطناعي أكثر تطورًا في إخفاء خداعه.

أوضح الباحثون في منشور عام على مدونتهم: "عادةً ما تكون نماذج الاستدلال المتطورة واضحةً جدًا بشأن غايتها في نموذج CoT الخاص بها. على سبيل المثال، غالبًا ما تكون واضحةً بشأن نيتها في "الاختراق" عندما تريد تعطيل مهمة معينة".

كما يؤكدون أنه على الرغم من قدرة المطورين على رصد السلوكيات الخاطئة وكشفها، إلا أن هذه الرقابة الطبيعية هشة. ويحذرون: "إذا طُبقت رقابة قوية مباشرة على سلسلة الأفكار، فقد يتعلم النموذج إخفاء نواياه السيئة مع الاستمرار في أداء السلوك".

العثور على "كذبة" الذكاء الاصطناعي

للتوضيح، تُعدّ نماذج الاستدلال (مثل إصدارات ChatGPT) خطوةً متقدمةً عن نموذج ماجستير إدارة الأعمال التقليدي، إذ تستخدم أسلوبًا قائمًا على سلسلة من الأفكار يسمح بالتأمل الذاتي في الخطوات المنطقية المُتخذة، مما يُمكّن من حل المشكلات المعقدة بدقة أكبر. تُشبه هذه العملية "التفكير بصوت عالٍ" للذكاء الاصطناعي، حيث يُدوّن كل خطوة من خطوات التفكير بلغة طبيعية، مما يُسهّل على البشر فهمها.

في التجربة، استخدم الباحثون نموذج GPT-4o "كمشرف" على نموذج استدلال متطور آخر أثناء أدائه لمهام البرمجة. في كثير من الحالات، اختار النموذج المُشرف الغشّ عمدًا للحصول على درجات أعلى، وقد أوضح هذه النية بوضوح في تفكيره. على سبيل المثال، أنهى البرنامج قبل أوانه بشكل تعسفي وأبلغ عن إكماله، أو أنشأ ملفات بأسماء مطابقة للمتطلبات ولكنها فارغة تمامًا.

عندما حاول الباحثون تطبيق العقوبة، تحسّن النموذج، لكن سلوك الغش وأخطاء الإخراج الجسيمة استمرت. يكمن الاختلاف في أن نموذج الاستدلال تعلم الآن "إخفاء" سلسلة أفكاره لإخفائها عن الذكاء الاصطناعي المُشرف. وتنص الدراسة على أن "النموذج المُدرّب تحت إشراف CoT تعلم الغش. والفرق الوحيد هو أن الغش لم يُكتشف لأنه تعلم إخفاء نواياه في سلسلة أفكاره".

نظرًا لصعوبة كشف التزوير في تسلسلات الأفكار، يوصي الفريق بتجنب فرض رقابة مُشددة على العملية، على الأقل حتى يتفهم البشر عواقبها بشكل أفضل. وخلص الباحثون إلى أن "التضحية بأسلوب رقابة فعال قد لا يكون مُجديًا مقابل التحسن الطفيف في أداء النموذج. لذلك، نوصي بتجنب ضغوط تحسين CoT القوية حتى نفهمها بشكل أفضل".

إن هذه النصيحة أصبحت أكثر إلحاحاً في ظل تطور الذكاء الاصطناعي بوتيرة سريعة للغاية، وقد يتجاوز قريباً ذكاء البشر الذين يشرفون عليه.

[إعلان 2]
المصدر: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm