Vietnam.vn - Nền tảng quảng bá Việt Nam

طالبان ينشران بحثًا في مؤتمر الذكاء الاصطناعي الرائد عالميًا

VnExpressVnExpress12/02/2024

[إعلان_1]

باستخدام أساليب التدريب التنافسية للسماح للذكاء الاصطناعي بإنشاء بيانات جديدة، تم نشر بحث لطالبين من جامعة مدينة هوشي منه للتكنولوجيا في AAAI - مؤتمر الذكاء الاصطناعي الرائد في العالم .

نُشر البحث حول النماذج متعددة اللغات لتدريب الذكاء الاصطناعي على إنشاء المرادفات بواسطة فام خان ترينه ولي مينه كوي، البالغ من العمر 23 عامًا، في وثائق مؤتمر AAAI-24 حول الذكاء الاصطناعي، الذي عقد في نهاية شهر فبراير في فانكوفر، كندا.

أشاد الأستاذ المشارك الدكتور كوان ثانه ثو، نائب عميد كلية علوم وهندسة الحاسوب بجامعة مدينة هو تشي منه للتكنولوجيا، بهذه النتيجة. وأوضح أن الباحثين والخبراء يعتبرون AAAI من أفضل الجامعات في المؤتمرات العلمية في مجالات علوم الحاسوب والذكاء الاصطناعي، مع معدل قبول منخفض جدًا للمقالات هذا العام، حيث بلغ 23.75%.

مينه كوي وخان ترينه (في الوسط) أثناء مناقشة أطروحة تخرجهما، عام 2023. الصورة: مقدمة من الشخصية

مينه كوي وخان ترينه (في الوسط) أثناء مناقشة أطروحة تخرجهما، عام 2023. الصورة: مقدمة من الشخصية

بشغفهما المشترك بالتعلم العميق ومعالجة اللغات الطبيعية، اختار ترينه وخوي البحث في نماذج اللغات الكبيرة (LLMs). أراد كلاهما اكتشاف حدود نماذج اللغات الكبيرة وتطويرها.

قال خان ترينه إن متعلمي الدردشة (GPTs) أو متعلمي اللغة الإنجليزية (LLMs) يحتاجون إلى التدريب على كمية هائلة من البيانات النصية لتوليد استجابات دقيقة ومتنوعة للمستخدمين. أدرك الشابان أنه في اللغات الأقل شيوعًا، مثل الهندية والكازاخية والإندونيسية، غالبًا ما يُقدم متعلمو الدردشة (GPTs) ومتعلمو اللغة الإنجليزية (LLMs) نتائج غير متوقعة لأنهم لم يدرسوا هذه اللغات جيدًا، أو لا تتوفر لديهم بيانات كافية لتعلمها.

تساءل الطالبان: "لماذا لا ننشئ المزيد من البيانات النصية من الموارد المحدودة لتلك اللغات لتدريب الذكاء الاصطناعي بشكل أكبر؟". ومن هنا، وُلد نموذج LAMPAT (التكيف منخفض الرتبة لإعادة الصياغة متعددة اللغات باستخدام التدريب التنافسي) - وهو نموذج ترجمة متعدد اللغات باستخدام أسلوب التدريب التنافسي الذي بحثه ترينه وخوي.

يستطيع LAMPAT توليد مرادف من جملة إدخال مُعطاة، وذلك لتوليد المزيد من البيانات النصية. يُعدّ شرح "التدريب المُنافس" طريقةً جديدةً نسبيًا لتدريب نماذج اللغات الكبيرة. باستخدام أساليب التدريب التقليدية، يُولّد التطبيق جملةً مُخرَجة. أما باستخدام التدريب المُنافس، فيُمكن للتطبيق التعليق على جملة الإخراج "المُنافسة" وتعديلها لتوليد المزيد من الجمل.

تكمن الطبيعة المتعددة اللغات لنموذج LAMPAT في قدرته على دمج 60 لغة في آنٍ واحد. بناءً على مجموعات البيانات المُجمعة، يواصل الفريق تدريب LAMPAT لتوليد المرادفات. سيستمر استخدام كمية البيانات النصية المُولّدة من LAMPAT لتدريب نماذج LLM، بحيث تتمكن هذه النماذج من تعلم طرق مختلفة للتعبير عن المعلومات للمحتوى نفسه، مما يُعطي إجابات متنوعة ذات احتمالية صحة أعلى. بفضل هذه الميزة، يعتقد ممثل الفريق أنه يُمكن دمج LAMPAT في تطبيقات مثل ChatGPT لتحسين هذا النموذج بشكل أكبر.

بالإضافة إلى ذلك، يُجبر نقص البيانات المتعلقة بـ Chat GPT أو LLM بعض الشركات على البحث عن مصادر خارجية عديدة، مثل الكتب والصحف والمدونات وغيرها، دون مراعاة قضايا حقوق النشر. ووفقًا لخان ترينه، يُعدّ إنشاء المرادفات إحدى طرق الحد من الانتحال وانتهاك حقوق النشر.

أعطى نام سينه مثالاً لتطبيقات مثل Chat GPT، عندما يطلب المستخدم ملخصًا لنص موجود A، سيقوم التطبيق بإنشاء نص ملخص B. إذا تم دمج طريقة البحث الخاصة بالمجموعة، فعند تلقي النص A، سيقوم التطبيق بإنشاء نصوص متعددة بنفس المحتوى A1، A2، A3 بناءً على آلية إنشاء المرادفات، والتي سيلخص منها النص وينتج العديد من النتائج للمستخدم للاختيار من بينها.

في المراحل الأولى من البحث، واجه الفريق صعوبة في إعداد بيانات التقييم لستين لغة. ونظرًا لعدم توفر كمية كافية من البيانات، جمع الفريق مجموعة بيانات متنوعة وشاملة من ثلاث عشرة لغة لتقييم النموذج بموضوعية، بما في ذلك: الفيتنامية، الإنجليزية، الفرنسية، الألمانية، الروسية، اليابانية، الصينية، الإسبانية، المجرية، البرتغالية، السويدية، الفنلندية، والتشيكية. وتُعد هذه المجموعة أيضًا موثوقة لمرحلة التقييم البشري النهائية.

التقط مينه كوي (يسار) وخان ترينه (يمين) صورة تذكارية مع المعلم كوان ثانه ثو في يوم التخرج، نوفمبر 2023. الصورة: مقدمة من الشخصية

التقط مينه كوي (يسار) وخان ترينه (يمين) صورة تذكارية مع المعلم كوان ثانه ثو في يوم التخرج، نوفمبر 2023. الصورة: مقدمة من الشخصية

لكلٍّ من اللغات الإنجليزية والفيتنامية والألمانية والفرنسية واليابانية، استخرج الفريق عشوائيًا 200 زوج من الجمل (يتكون كل زوج من الجملة الناتجة والاسم الصحيح) للتقييم. لكلٍّ من اللغات المذكورة أعلاه، طلب الفريق من خمسة خبراء لغويين تقييمها بشكل مستقل، بناءً على ثلاثة معايير: الحفاظ على الدلالة، واختيار الكلمات والتشابه المعجمي، وطلاقة الجملة الناتجة وتماسكها. حُسب المقياس من 1 إلى 5. ونتيجةً لذلك، تراوح متوسط درجة التقييم من خبراء اللغات في هذه اللغات الخمس بين 4.2 و4.6/5 نقاط.

يقدم المثال زوجًا من الجمل الفيتنامية التي حصلت على تقييم 4.4/5، حيث تكون الجملة المدخلة: "لقد شرح المشكلة بالتفصيل"، والجملة الناتجة هي: "لقد شرح المشكلة بالتفصيل".

ولكن هناك أيضًا أزواج من الجمل ذات جودة رديئة وأخطاء دلالية، مثل زوج الجمل "نأكل بينما الحساء ساخن - نأكل الحساء بينما نحن ساخنون"، والتي حصلت فقط على 2/5 نقاط.

قال خان ترينه إن البحث في هذا المشروع وإكماله استغرق ثمانية أشهر. وهذا أيضًا موضوع أطروحة تخرج ترينه وخوي. وقد حصلت الأطروحة على المركز الأول في مجلس علوم الحاسوب الثاني بتقييم 9.72 من 10 نقاط.

وبحسب السيد كوان ثانه تو، على الرغم من أن LAMPAT أثبت كفاءته في توليد عبارات مرادفة تشبه الإنسان عبر لغات متعددة، إلا أنه لا يزال بحاجة إلى التحسين للتعامل مع التعبيرات الاصطلاحية والأغاني الشعبية والأمثال الشعبية في لغات مختلفة.

علاوة على ذلك، لا تشمل قاعدة بيانات التقييم الخاصة بالفريق سوى 13 لغة، مما يُغفل العديد من اللغات، وخاصة لغات الأقليات. لذلك، يحتاج الفريق إلى إجراء بحوث لتحسين وتوسيع قدرات نماذج الترجمة الفورية متعددة اللغات الحالية. ومن هنا، يُمكننا إزالة حاجز اللغة بين البلدان والأعراق.

في نهاية عام ٢٠٢٣، تخرج ترينه وخوي بمرتبة الشرف والتميز في علوم الحاسوب بمعدل تراكمي ٣.٧ و٣.٩ من ٤ على التوالي. يخطط كلاهما للدراسة في الخارج للحصول على درجة الماجستير، ومواصلة البحث في مجال الذكاء الاصطناعي والتعلم الآلي.

"نحن نواصل البحث في هذا الموضوع بهدف تطبيق LAMPAT بشكل أكبر على المشاريع العلمية القادمة، وإنشاء منتج متعدد اللغات موثوق به للمستخدمين"، كما شارك ترينه.

لي نجوين


[إعلان 2]
رابط المصدر

تعليق (0)

No data
No data
تمتلئ شوارع هانغ ما بالقمصان والأعلام الوطنية للترحيب بالعيد المهم
اكتشف موقع تسجيل وصول جديد: الجدار "الوطني"
شاهد تشكيل طائرة متعددة الأدوار من طراز ياك-130 "قم بتشغيل دفعة الطاقة، وقم بالدور القتالي"
من A50 إلى A80 - عندما تصبح الوطنية هي الاتجاه
'الوردة الفولاذية' A80: من خطوات الفولاذ إلى الحياة اليومية الرائعة
80 عامًا من الاستقلال: هانوي تتألق باللون الأحمر، وتعيش مع التاريخ
يتألق المسرح على شكل حرف V الذي يبلغ ارتفاعه 26 مترًا بشكل ساطع خلال ليلة التدريب على "الوطن في القلب"
الزوار الدوليون إلى فيتنام يحطمون جميع الأرقام القياسية في الصيف
«الإكسسوارات الوطنية» تحتفل باليوم الوطني وتجذب الشباب
تؤدي حوالي 600 امرأة رقصة "أو داي" ويشكلن كتلًا على شكل العلم الوطني في ساحة ثورة أغسطس.

إرث

شكل

عمل

No videos available

أخبار

النظام السياسي

محلي

منتج