ترغب بنشر مسار تعليمي؟ اضغط هنا

النمذجة باللغة العربية المدمجة لأجهزة الموارد المحدودة

Arabic Compact Language Modelling for Resource Limited Devices

309   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

اكتسب نمذجة اللغة الطبيعية الكثير من الاهتمام مؤخرا.يتم تحقيق النتائج الحالية الحالية من خلال التدريب الأول نموذج لغة كبير جدا ثم قم بضبطه على مهام متعددة.ومع ذلك، هناك القليل من العمل على أحدث نماذج لغة أكثر إحكاما للأجهزة أو التطبيقات المحدودة للمورد.ناهيك عن، وكيفية تدريب هذه النماذج بكفاءة لغوية منخفضة الموارد مثل اللغة العربية.في هذه الورقة، نحقق في كيفية تدريب هذه النماذج بطريقة مدمجة للعربية.نوضح أيضا كيف يمكن تطبيق التقطير والتجميل لإنشاء نماذج أصغر.تبين تجاربنا أن أكبر نموذج لدينا هو 2x أصغر من خط الأساس يمكن أن يحقق نتائج أفضل على مهام متعددة مع بيانات أقل بنسبة 2X لإحاطاء.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الكشف عن السخرية هو واحد من أفضل المهام الصعبة في تصنيف النص، لا سيما بالنسبة للغة العربية غير الرسمية بالغشاء النحوي والدلي العالي.نقترح أنظمتين تسخير المعرفة من مهام متعددة لتحسين أداء المصنف.تقدم هذه الورقة أنظمة المستخدمة في مشاركتنا إلى المهام ا لفرعية لورشة معالجة اللغات الطبيعية العربية السادسة (WANLP)؛تحليل السخرية وتحليل المعنويات.المنهجيات الخاصة بنا مدفوعة بفرضية أن التغريدات ذات الشعور السلبي والثغرات السلبية مع محتوى السخرية من غير المرجح أن يكون لها محتوى مسيء، وبالتالي، تؤدي إلى ضبط طراز التصنيف باستخدام كوربوس كبيرة من اللغة المسيئة، عملية التعلم للنموذج للكشف بشكل فعالالمعنويات ومحتويات السخرية.توضح النتائج فعالية نهجنا لمهمة الكشف عن السخرية على مهمة تحليل المعنويات.
تشكل بروز أجهزة اللغة التصويرية، مثل السخرية والمفارقة، تحديات خطيرة لتحليل المعنويات العربية (SA).في حين أن أعمال البحث السابقة تعامل معها واكتشاف السخرية بشكل منفصل، تقدم هذه الورقة نموذجا للتعلم العميق المتعدد للمكملات المتعددة الإنهائية (MTL)، مم ا يتيح تفاعل المعرفة بين المهامتين.تتكون بنية MTL Model الخاصة بنا من تمثيل ترميز ثنائي الاتجاه من طراز المحولات (Bert)، وحدة تفاعل انتباه متعددة المهام، واثنين من مصنفين المهامين.تظهر النتائج الإجمالية التي تم الحصول عليها أن نموذجنا المقترح تتفوق على نظرائه المهمة الواحدة و MTL على كل من المهاجمة والشعور الفرعي للكشف عن المعنويات.
نظرا للجهود المعجدة والإدراكية المتورطة في التوليد اليدوي من تعليق واحد لكل إدخال الصورة / الفيديو، فإن موارد الشروح البشرية محدودة للغاية لتسمية المهام. نحن نحدد كفاءة الموارد اللغوية باعتبارها تصل إلى نفس الأداء مع التوضيحية المشروحة أقل لكل مدخلات . ندرس أولا تدهور أداء نماذج التسمية التوضيحية في إعدادات موارد لغة مختلفة. يظهر تحليل نماذج التسمية التوضيحية مع خسارة SC أن تدهور الأداء ناتج عن تقدير المكافأة بشكل متزايد للمكافآت والأساس مع عدد أقل من الموارد اللغوية. لتخفيف هذه المشكلة، نقترح تقليل تباين الضوضاء في الأساس عن طريق تعميم المقارنة الزوجية الفردية في فقدان SC واستخدام مقارنات الزوجية المتعددة المتعمدة. يقيس المقارنة الزوجية المعممة (GPC) الفرق بين درجات التقييم التوضيحتين فيما يتعلق بالإدخال. وإظهار تجريبيا، نظرا لأن النموذج الذي تم تدريبه مع فقدان GPC المقترح فعالا على مورد اللغة وتحقق أداء مماثل مع النماذج الحديثة على MSCOC باستخدام نصف موارد اللغة فقط. علاوة على ذلك، تتفوق نموذجنا بشكل كبير على النماذج الحديثة على مجموعة بيانات تعليق الفيديو التي تحتوي على علامة تعليق واحدة فقط لكل إدخال في مجموعة التدريب.
أصبحت القدرة على البحث ضمن مواقع الانترنت ضرورة للكثير من الناس و تعاني كثير من مواقع الانترنت من صعوبة وصول المستخدم للمعلومة المطلوبة بسبب عدم الأخذ بالحسبان معاني الكلمات و مدلولاتها Semantics عند البحث تدعم التقنيات الحالية معظم اللغات الطبيعية مع بقاء ذلك ضعيفاً بالنسبة للغة العربية. تشكل الأنطولوجيا العنصر المحوري في التطبيقات التي تدعم علم دلالات الألفاظ, و على الرغم من وجود الكثير من أدوات بناء الانطولوجيات باللغات الأجنبية، فإن الأداة Arabic WordNet (AWN)، التي تعدّ من المصادر المفتوحة قد تكون الوحيدة التي تسمح لنا بتطوير انطولوجيا باللغة العربية. في هذا البحث سنقوم بتحديد الخطوات اللازمة لتطوير انطولوجيا عربية و بناء انطولوجيا اعتماداً على هذه الخطوات تستخدم في مواقع الجامعات مستخدمين الأداة Arabic WordNet التأكد من نظافة الانطولوجيا المصممة، و تقييم أداء عملية البحث في الموقع بعد استخدام الانطولوجيا المصممة.
في حين أن التلخيص المبشط في بعض اللغات، مثل اللغة الإنجليزية، فقد وصلت بالفعل نتائج جيدة إلى حد ما بسبب توفر موارد تحديد الاتجاه، مثل مجموعة بيانات CNN / Daily Mail، والتقدم الكبير في النماذج العصبية الإنتاجية، والتقدم المحرز في تلخيص الجماع للعربية اللغة الخامسة الأكثر تكلم على مستوى العالم، لا تزال في أحذية الأطفال. في حين أن بعض الموارد لتلخيص الاستخراجي كانت متاحة لبعض الوقت، في هذه الورقة، نقدم أول كائن من ملخصات الأخبار المذهلة التي كتبها الإنسان باللغة العربية، على أمل وضع أساس هذا الخط من البحث لهذه اللغة الهامة. تتكون DataSet من أكثر من 21 ألف عنصر. استخدمنا هذه البيانات هذه البيانات لتدريب مجموعة من أنظمة تلخيص الجماع العصبي للعربية من قبل طرازات اللغة المدربة مسبقا مسبقا مثل بيرت متعددة اللغات وأرابيرت والفتنة متعددة اللغات - 50. كما مجموعة البيانات العربية أصغر بكثير من .g. DataSet CNN / Daily Mail DataSet، كما طبقنا نقل المعرفة عبر اللغات إلى تحسين أداء أنظمةنا الأساسية. تضمنت الإعدادات نماذج ملخصتين تعتمد على M-Bert تدرب أصلا على الهنغارية / الإنجليزية ونظام مماثل على أساس M-BART-50 مدربا أصلا للروسية التي تم ضبطها بشكل جيد للعربية. تم إجراء تقييم النماذج من حيث الحمر، وتم تقييم يدوي للطلاقة وكفاية النماذج أيضا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا