الذكاء الاصطناعي يقع تحت الضغط والتوتر

[إعلان 1]

من المعروف منذ زمن طويل أن الذكاء الاصطناعي قادر على "الهلوسة" وإعطاء إجابات خاطئة وغير دقيقة. ومع ذلك، اكتشف الباحثون مؤخرًا إمكانية التلاعب بالذكاء الاصطناعي وروبوتات الدردشة لارتكاب جرائم نيابةً عن البشر، بل وحتى الكذب لتغطية أفعالهم.

بناءً على ذلك، افترض فريق بحثي من جامعة كورنيل (الولايات المتحدة الأمريكية) حالةً تصرف فيها نموذج لغوي كبير (LLM) بشكل خاطئ وخدع المستخدمين. في وصف التجربة، ذكر الباحثون أنهم طلبوا من نموذج اللغة الكبير (LLM)، وهو GPT-4 من OpenAI، محاكاةَ إجراء استثمارات للمؤسسات المالية. تفاعل الفريق مع هذا الذكاء الاصطناعي في محادثة عادية، لكنهم عدّلوا الذكاء الاصطناعي للكشف عن "أفكاره" عند تبادل الرسائل لمراقبة عملية اتخاذ القرار فيه عن كثب.

Dưới áp lực, AI có thể thực hiện hành vi sai trái và nói dối để che đậy việc đã làm — تحت الضغط، يمكن للذكاء الاصطناعي أن يرتكب مخالفات ويكذب للتغطية على ما فعله.

لاختبار قدرة الذكاء الاصطناعي على الكذب أو الغش، اختبر الباحثون الأداة. انتحلوا صفة مديري مؤسسة مالية، وأرسلوا بريدًا إلكترونيًا إلى الذكاء الاصطناعي، متظاهرين بأنهم متداولو أسهم، يشتكون من ضعف أداء الشركة.

كما تلقى الذكاء الاصطناعي "معلومات داخلية" حول صفقات أسهم مربحة، واتخذ إجراءات بناءً عليها، مع علمه بأن التداول بناءً على معلومات داخلية يخالف سياسة الشركة. ولكن عند إبلاغ الإدارة، أخفى نموذج اللغة الأسباب الحقيقية وراء قرارات التداول.

وللحصول على المزيد من النتائج، أجرى الفريق تغييرات على الإعدادات مثل إزالة وصول LLM إلى جدول المنطق، ومحاولة منع السلوك المنحرف عن طريق تغيير تعليمات النظام، وتغيير مستوى الضغط الواقع على الذكاء الاصطناعي، وخطر الإمساك به... ولكن بعد تقييم التردد، وجد الفريق أنه عندما أتيحت الفرصة، قرر GPT-4 إجراء تداول داخلي بنسبة تصل إلى 75٪ من الوقت.

وخلص التقرير إلى أنه "على حد علمنا، هذا هو أول دليل على سلوك خادع مخطط له في أنظمة الذكاء الاصطناعي المصممة لتكون غير ضارة بالبشر وصادقة".

[إعلان 2]
رابط المصدر