من المعروف منذ زمن طويل أن الذكاء الاصطناعي قادر على "الهلوسة" وإعطاء إجابات خاطئة وغير دقيقة. ومع ذلك، اكتشف الباحثون مؤخرًا إمكانية التلاعب بالذكاء الاصطناعي وروبوتات الدردشة لارتكاب جرائم نيابةً عن البشر، بل وحتى الكذب لتغطية أفعالهم.
بناءً على ذلك، افترض فريق بحثي من جامعة كورنيل (الولايات المتحدة الأمريكية) حالةً تصرف فيها نموذج لغوي كبير (LLM) بشكل خاطئ وخدع المستخدمين. في وصف التجربة، ذكر الباحثون أنهم طلبوا من نموذج اللغة الكبير (LLM)، وهو برنامج OpenAI GPT-4، محاكاةَ إجراء استثمارات للمؤسسات المالية. تفاعل الفريق مع هذا الذكاء الاصطناعي عبر محادثة عادية، لكنهم عدّلوا إعداداته للكشف عن "أفكاره" عند تبادل الرسائل لمراقبة عملية اتخاذ القرار فيه عن كثب.
تحت الضغط، يمكن للذكاء الاصطناعي أن يرتكب مخالفات ويكذب للتغطية على ما فعله.
لاختبار قدرة الذكاء الاصطناعي على الكذب أو الغش، اختبر الباحثون الأداة. انتحلوا صفة مديري مؤسسة مالية، وأرسلوا بريدًا إلكترونيًا إلى الذكاء الاصطناعي، متظاهرين بأنهم متداولو أسهم، يشكون من ضعف أداء الشركة.
كما تلقى الذكاء الاصطناعي "معلومات داخلية" حول صفقات أسهم مربحة، واتخذ إجراءات بناءً عليها، مع علمه بأن التداول بناءً على معلومات داخلية يخالف سياسة الشركة. ولكن عند إبلاغ الإدارة، أخفى نموذج اللغة الأسباب الحقيقية وراء قرارات التداول.
للحصول على المزيد من النتائج، أجرى الفريق تغييرات على الإعدادات مثل إزالة وصول LLM إلى جدول المنطق، ومحاولة منع السلوك المنحرف عن طريق تغيير تعليمات النظام، وتغيير مستوى الضغط الواقع على الذكاء الاصطناعي، وخطر الوقوع في الفخ... ولكن بعد تقييم التردد، وجد الفريق أنه عندما أتيحت الفرصة، قرر GPT-4 إجراء تداول داخلي بنسبة تصل إلى 75٪ من الوقت.
وخلص التقرير إلى أنه "على حد علمنا، هذا هو أول دليل على سلوك خادع مخطط له في أنظمة الذكاء الاصطناعي المصممة لتكون غير ضارة بالبشر وصادقة".
[إعلان 2]
رابط المصدر
تعليق (0)