لا يزال يتعين على GPT ونماذج الذكاء الاصطناعي القوية "الاستسلام" قبل هذا الاختبار

[إعلان 1]

وبناءً على ذلك، حتى نموذج الذكاء الاصطناعي الأفضل أداءً الذي اختبروه، وهو GPT-4-Turbo من OpenAI، لم يحقق سوى نسبة إجابة صحيحة بلغت 79% على الرغم من قراءة الملف الشخصي بالكامل، ورغم تعرضه في كثير من الأحيان لـ"هلوسة" تتعلق بأرقام أو أحداث غير واقعية.

قال أناند كانابان، المؤسس المشارك لشركة باترونوس للذكاء الاصطناعي: "هذا المعدل من الأداء غير مقبول بتاتًا. يجب أن يكون معدل الإجابة الصحيحة أعلى بكثير حتى تتم أتمتته وجاهزيته للإنتاج".

وتسلط النتائج الضوء على بعض التحديات التي تواجه نماذج الذكاء الاصطناعي مع سعي الشركات الكبرى، وخاصة في الصناعات الخاضعة للتنظيم الشديد مثل القطاع المالي، إلى دمج التكنولوجيا المتقدمة في عملياتها، سواء كان ذلك في مجال خدمة العملاء أو البحث.

"وهم" البيانات المالية

لقد تم اعتبار القدرة على استخراج الأرقام الرئيسية بسرعة وإجراء تحليل للبيانات المالية واحدة من أكثر التطبيقات الواعدة للدردشة الآلية منذ إصدار ChatGPT في أواخر العام الماضي.

تحتوي ملفات لجنة الأوراق المالية والبورصات على بيانات مهمة، وإذا كان الروبوت قادرًا على تلخيص محتوياتها بدقة أو الإجابة بسرعة على الأسئلة المتعلقة بها، فقد يمنح المستخدمين أفضلية في الصناعة المالية التنافسية.

صورة llm 100941414 كبيرة.jpg — تواجه الذكاء الاصطناعي صعوبات كبيرة في مرحلة تجميع البيانات - وهي المهمة التي من المتوقع أن تساعد البشر فيها أكثر من غيرها.

على مدار العام الماضي، طورت شركة Bloomberg LP نموذج الذكاء الاصطناعي الخاص بها للبيانات المالية، وكان أساتذة كليات إدارة الأعمال يدرسون ما إذا كان ChatGPT قادرًا على تحليل العناوين المالية.

في غضون ذلك، يُطوّر بنك جي بي مورغان أيضًا أداة استثمار آلية مُدعّمة بالذكاء الاصطناعي. وقد أشارت توقعات حديثة لشركة ماكينزي إلى أن الذكاء الاصطناعي المُولّد قد يُعزّز القطاع المصرفي بتريليونات الدولارات سنويًا.

لكن لا يزال الطريق طويلاً. عندما أطلقت مايكروسوفت لأول مرة تطبيق Bing Chat مع منصة OpenAI GPT، استخدمت روبوت الدردشة لتلخيص البيانات الصحفية المتعلقة بالأرباح بسرعة. لاحظ المراقبون سريعًا أن الأرقام التي أصدرها الذكاء الاصطناعي كانت مُشوّهة أو حتى مُفبركة.

نفس البيانات، إجابات مختلفة

يكمن جزء من تحدي دمج ماجستير الحقوق في المنتجات العملية في أن الخوارزميات ليست حتمية، أي أنه لا يُضمن لها تحقيق نفس النتائج عند استخدام نفس المدخلات. هذا يعني أن الشركات بحاجة إلى إجراء اختبارات أكثر صرامة لضمان عمل الذكاء الاصطناعي بشكل صحيح، وعدم خروجه عن الموضوع، وتقديمه نتائج موثوقة.

قامت Patronus AI ببناء مجموعة بيانات تُسمى FinanceBench، تضم أكثر من 10,000 سؤال وجواب، مستمدة من ملفات هيئة الأوراق المالية والبورصات الأمريكية (SEC) من شركات كبيرة مُدرجة في البورصة. تتضمن مجموعة البيانات الإجابات الصحيحة، بالإضافة إلى الموقع الدقيق في أي ملف للعثور عليها.

لا يمكن أخذ جميع الإجابات مباشرة من النص، وتتطلب بعض الأسئلة الحساب أو التفكير البسيط.

شمل اختبار المجموعة الفرعية المكون من 150 سؤالاً أربعة نماذج LLM: GPT-4 وGPT-4-Turbo من OpenAI، وClaude 2 من Anthropic، وLlama 2 من Meta.

ونتيجة لذلك، عندما تم منح GPT-4-Turbo حق الوصول إلى الملفات الأساسية لهيئة الأوراق المالية والبورصات، لم يحقق سوى معدل دقة بلغ 85% (مقارنة بـ 88% عندما لم يكن لديه حق الوصول إلى البيانات)، على الرغم من أن الإنسان أشار بالماوس إلى النص الدقيق حتى تتمكن الذكاء الاصطناعي من العثور على الإجابة.

كان لدى Llama 2، وهو نموذج الذكاء الاصطناعي مفتوح المصدر الذي طورته شركة Meta، أعلى عدد من "الهلوسة"، حيث حصل على 70% من الإجابات الخاطئة و19% فقط من الإجابات الصحيحة عندما تم منحه حق الوصول إلى جزء من المستندات الأساسية.

حقق برنامج كلود 2 من أنثروبيك أداءً جيدًا عند إعطائه سياقًا طويلًا، حيث أُدرجت فيه تقريبًا كامل ملف هيئة الأوراق المالية والبورصات ذي الصلة مع السؤال. وتمكن من الإجابة على 75% من الأسئلة المطروحة، وأجاب بشكل خاطئ على 21%، ورفض الإجابة على 3%. كما حقق برنامج GPT-4-Turbo أداءً جيدًا عند إعطائه سياقًا طويلًا، حيث أجاب بشكل صحيح على 79% من الأسئلة، وأجاب بشكل خاطئ على 17% منها.

(وفقا لشبكة CNBC)