ترغب بنشر مسار تعليمي؟ اضغط هنا

على قابلية استخدام النماذج القائمة على المحولات لمهمة الإجابة على الأسئلة الفرنسية

On the Usability of Transformers-based Models for a French Question-Answering Task

359   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

بالنسبة للعديد من المهام، تم تحقيق النتائج الحديثة مع الهندسة المعمارية القائمة على المحولات، مما يؤدي إلى تحول نموذجي في الممارسات من استخدام الهيغات الخاصة بمهام المهام إلى ضبط نماذج اللغة المدربة مسبقا مسبقا. يتكون الاتجاه المستمر في نماذج تدريبية مع كمية متزايدة باستمرار من البيانات والمعلمات، والتي تتطلب موارد كبيرة. يؤدي إلى بحث قوي لتحسين كفاءة الموارد بناء على تحسينات الخوارزمية والتحسينات التي تم تقييمها للغة الإنجليزية فقط. يثير هذا أسئلة حول قابلية استخدامها عند تطبيقها على مشاكل التعلم الصغيرة، والتي تتوفر كمية محدودة من بيانات التدريب، خاصة لمهام لغات أقل من الموارد. يعد الافتقار إلى كورسا الحجم بشكل مناسب عائقا لتطبيق النهج القائمة على التعلم التي يحركها البيانات ونقلها مع حالات عدم الاستقرار قوية. في هذه الورقة، نقوم بإنشاء أحدث من الجهود المكرسة لسهولة الاستخدام النماذج القائمة على المحولات واقتراح تقييم هذه التحسينات بشأن أداء الإجابة على الأسئلة للغة الفرنسية التي لديها عدد قليل من الموارد. نحن نبذة عن عدم الاستقرار المتعلق ندرة البيانات عن طريق التحقيق في استراتيجيات التدريب المختلفة مع تكبير البيانات وتحسين فرط الحرارة ونقل عبر اللغات. نقدم أيضا نموذجا مدمجا جديدا ل Fralbert الفرنسية التي تثبت أنها تنافسية في إعدادات الموارد المنخفضة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يقارن تقييم نماذج الرد على الأسئلة التوضيحية حول التوقعات النموذجية. ومع ذلك، اعتبارا من اليوم، فإن هذه المقارنة تعتمد في الغالب معجمية، وبالتالي تفتقد الإجابات التي لا تحتوي على تداخل جذري ولكن لا تزال مماثلة متشابهة دلالة، وبالتالي علاج الإجابات ال صحيحة على أنها خاطئة. يعيق هذا التقليل من الأداء الحقيقي للنماذج قبول المستخدم في التطبيقات ويعقد مقارنة عادلة من النماذج المختلفة. لذلك، هناك حاجة إلى متري تقييم يعتمد على دلالات بدلا من تشابه السلسلة الخالصة. في هذه الورقة القصيرة، نقدم SAS، وهي متري مقرها في التشفير لتقدير تشابه الإجابة الدلالية، ومقارنتها بسبعة مقاييس موجودة. تحقيقا لهذه الغاية، نقوم بإنشاء مجموعة بيانات تقييم اللغة الإنجليزية ثلاثية وألمانية تحتوي على أزواج من الإجابات جنبا إلى جنب مع الحكم البشري من التشابه الدلالي، والتي نصرح لها جنبا إلى جنب مع تنفيذ Metric SAS والتجارب. نجد أن مقاييس التشابه الدلالي القائم على نماذج المحولات الأخيرة ترتبط بشكل أفضل بكثير مع الحكم البشري من مقاييس التشابه المعجمية التقليدية على مجموعات بياناتنا التي أنشأت حديثا ومجموعة بيانات واحدة من العمل ذي الصلة.
يوضح هذا العمل عملية تطوير بنية تعلم الآلة للاستدلال الذي يمكن أن يتجاوز حجم كبير من الطلبات.استخدمنا نموذج بيرت الذي كان يركض بشكل جيد لتحليل العاطفة، وإرجاع توزيع احتمالية للعواطف بالنظر إلى فقرة.تم نشر النموذج كخدمة GRPC على KUBERNNTES.تم استخدام Apache Spark لأداء الاستدلال على دفعات عن طريق استدعاء الخدمة.واجهنا بعض تحديات الأداء والتزامن وإنشاء حلول لتحقيق وقت التشغيل بشكل أسرع.بدءا من 200 طلب استنتاج ناجح في الدقيقة، تمكنا من تحقيق ما يصل إلى 18 ألف طلب ناجح في الدقيقة مع نفس تخصيص الموارد الوظيفية الدفاعية.نتيجة لذلك، نجحنا في تخزين احتمالات العاطفة لمدة 95 مليون فقرات في غضون 96 ساعة.
تم إدخال نماذج اللغة القائمة على المحولات خطوة ثورية لأبحاث معالجة اللغة الطبيعية (NLP). أدت هذه النماذج، مثل Bert، GPT و Electra، إلى أداء أحدث في العديد من مهام NLP. تم تطوير معظم هذه النماذج في البداية للغة الإنجليزية ولغات أخرى تبعها لاحقا. في ال آونة الأخيرة، بدأت عدة نماذج عربية خاصة الناشئة. ومع ذلك، هناك مقارنات محدودة مباشرة بين هذه النماذج. في هذه الورقة، نقيم أداء 24 من هذه النماذج على المعنويات العربية والكشف عن السخرية. تظهر نتائجنا أن النماذج التي تحققت أفضل أداء هي تلك التي يتم تدريبها على البيانات العربية فقط، بما في ذلك اللغة العربية ذاتي، واستخدام عدد أكبر من المعلمات، مثل Marbert صدر مؤخرا. ومع ذلك، لاحظنا أن ARAELECTRA هي واحدة من أفضل النماذج الأدائية بينما تكون أكثر كفاءة في تكلفتها الحسابية. أخيرا، أظهرت التجارب على المتغيرات Aragpt2 أداء منخفضة مقارنة بنماذج Bert، مما يشير إلى أنه قد لا يكون مناسبا لمهام التصنيف.
تصف هذه الدراسة تطوير سؤال مجتمعي برتغالي يرد على معيار في مجال ميليتوس السكري باستخدام نهج إيصال الأسئلة المعترف به (RQE). بالنظر إلى سؤال الفرضية، يهدف RQE إلى استرداد أسئلة متشابهة دلالة الشكل، أجاب بالفعل على أرشفة. إننا نبني كوربا رئيسيا باللغة البرتغالية مع 785 زوجا بين أسئلة الفرضية وأرشفة الأسئلة الإجابة تميزت بأحكام الأهمية من قبل خبراء طبيين. استنادا إلى Corpus القياسي، فإننا نستفيد وتقييم العديد من نهج RQE تتراوح من أساليب استرجاع المعلومات التقليدية إلى نماذج اللغة الكبيرة المدربة مسبقا وتقنيات الفرقة باستخدام مناهج التعلم إلى رتبة. تظهر نتائجنا التجريبية أن الأسلوب الإشراف على المحولات المدربين مدربا بلغات متعددة ومهام متعددة (موسى) يتفوق على البدائل. تظهر نتائجنا أيضا أن فروع الأساليب (التراص) بالإضافة إلى طريقة استرجاع المعلومات (الضوء) التقليدية (BM25) يمكن أن تنتج نتائج تنافسية. أخيرا، من بين الاستراتيجيات التي تم اختبارها، فإن أولئك الذين يستغلون سوى السؤال (وليس الإجابة)، وتقديم أفضل مفاضلة كفاءة الفعالية. الرمز متاح علنا.
نماذج اللغة الحالية المدربة مسبقا لديها الكثير من المعرفة، ولكن القدرة المحدودة على استخدام هذه المعرفة.تساعد تصنيف Bloom في علم المربين على تعليم الأطفال كيفية استخدام المعرفة من خلال تصنيف مهارات الفهم، لذلك نحن نستخدمها لتحليل وتحسين مهارات الفهم في نماذج اللغة المدربة مسبقا مسبقا.تركز تجاربنا على الإجابة على السؤال الصفرية، باستخدام التصنيف لتقديم السياق القريب الذي يساعد على الإجابة النموذجية على الأسئلة المتعلقة بتلك الأسئلة ذات الصلة بتلك الأسئلة.نعرض سياق الاستهداف بهذه الطريقة يحسن الأداء عبر مجموعات بيانات الإجابة الشائعة على 4 أشخاص.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا