ترغب بنشر مسار تعليمي؟ اضغط هنا

ARAELECTRA: ما قبل التدريب على الرسائل النصية لفهم اللغة العربية

AraELECTRA: Pre-Training Text Discriminators for Arabic Language Understanding

415   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مكنت التقدم في تمثيل اللغة الإنجليزية مهمة أكثر كفاءة عينة من خلال التعلم بكفاءة ترميز يصنف بدائل الرمز المميز بدقة (Electra).أي، بدلا من تدريب نموذج لاستعادة الرموز الممثيلين، يقوم بتدريب نموذج تمييزي على التمييز بين الرموز الإدخال الحقيقية من الرموز التالفة التي تم استبدالها بشبكة مولدات.من ناحية أخرى، فإن نهج تمثيل اللغة باللغة العربية الحالية تعتمد فقط على الاحتجاج عن طريق نمذجة اللغة الملثم.في هذه الورقة، نقوم بتطوير نموذج تمثيل اللغة باللغة العربية، والتي نستها ARAELECTRA.يتم الاحترام من النموذج الخاص بنا باستخدام هدف الكشف عن الرمز المميز في النص العربي الكبير.نقوم بتقييم نموذجنا على مهام NLP العربية المتعددة، بما في ذلك فهم القراءة وتحليل المعرفات والاعتراف باسم الكيان المسمى ونعرض أن ARAELECTRA تتفوق على نماذج تمثيل اللغة العربية الحديثة الحالية، بالنظر إلى نفس البيانات المحددةحجم نموذج أصغر.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم VideoClip، وهو نهج مقاوم للتناقض في تدريب نموذج موحد مسبقا لفهم الفيديو والنصية الصفرية، دون استخدام أي ملصقات على مهام المصب.يقوم VideoClep بتدريب محول الفيديو والنص عن طريق تناقض أزواج فيديو إيجابية مؤقتة متداخلة مع السلبيات الصعبة من أقرب است رجاع جار.تجاربنا على سلسلة متنوعة من المهام المصب، بما في ذلك استرجاع الفيديو على مستوى التسلسل، والتعريب الخاص بمستوى عمل Videoqa ومستوى الرمز المميز، وتجزئة العمل تكشف عن أداء حالة من بين الفن، وتجاوز العمل السابق، وفي بعض الحالات يفوقنالنهج الخاضعة للإشراف.يتوفر الكود في https://github.com/pytorch/fairseq/examples/mmpt.
تلخيص التعليمات البرمجية والجيل التمدد التحويل بين لغة البرمجة (PL) واللغة الطبيعية (NL)، بينما تتفافر ترجمة التعليمات البرمجية ترحيل الرمز القديم من واحد إلى آخر. تقدم هذه الورقة Plbart، نموذج تسلسل إلى تسلسل قادر على أداء مجموعة واسعة من فهم البرام ج واللغة ومهام الجيل. يتم تدريب PLBART مسبقا على مجموعة واسعة من وظائف Java و Python والنص NL المرتبط NL عبر Denoising AutoNCoding. تجارب في تلخيص التعليمات البرمجية في اللغة الإنجليزية وتوليد التعليمات البرمجية، وترجمة التعليمات البرمجية في سبع لغات البرمجة تظهر أن PLBART تفوق النماذج أو من المنافسين من النماذج الحديثة. علاوة على ذلك، فإن التجارب المعنية بالمهام التمييزية، على سبيل المثال، إصلاح البرامج، وكشف استنساخ، وكشف الشفرة الضعيفة، إظهار فعالية PLBART في فهم البرنامج. علاوة على ذلك، يكشف التحليل أن Plbart يتعلم بناء جملة البرنامج، والأسلوب (على سبيل المثال، اتفاقية تسمية المعرف)، التدفق المنطقي (على سبيل المثال، إذا كانت كتلة داخل كتلة أخرى تعادل أخرى إذا كانت الكتلة) ذات أهمية حاسمة في البرامج، وبالتالي تتفوق حتى مع التعليقات التوضيحية المحدودة وبعد
تسهل المعلومات اللغوية الخشنة، مثل الكيانات أو العبارات المسماة، التعلم التمثيل بشكل كاف في التدريب المسبق. تعمل السابقة بشكل أساسي على توسيع هدف نمذجة لغة بيرت الملثمين (MLM) من إخفاء الرموز الفردية إلى تسلسلات متجاورة من الرموز N. نقول أن هذه الطري قة اخفاء هذه المتخلل تهمل طرازات التبعيات داخل الإتصال والمعلومات المشتركة بين المعلومات اللغوية المحبوبة الخشنة. كديل، نقترح Ernie-Gram، وهي طريقة إخفاء N-Gram بشكل صريح لتعزيز دمج المعلومات المحبوسة الخشنة في ما قبل التدريب. في Ernie-Gram، N-Grams ملثمين وتوقعت مباشرة باستخدام هويات N-Gram واضحة بدلا من تسلسلات متجاورة من الرموز N. علاوة على ذلك، توظف Ernie-Gram نموذج مولد للعينة من هويات N-Gram المعقولة كقنعة اختيارية N-Gram وتوقعها في كل من الأخلاق الخشنة والحبوب الدقيقة لتمكين تنبؤات N-Gram الشاملة ونمذجة العلاقة. نحن نسترجع تدريبات Ernie-Gram على النصوص باللغة الإنجليزية والصينية ونغمة الجميلة في 19 مهام المصب. تظهر النتائج التجريبية أن Ernie-Gram يتفوق على نماذج مسبقة التدريب السابقة مثل XLNet و Roberta بهامش كبير، وتحقق نتائج قابلة للمقارنة مع الطرق الحديثة. تم إصدار رموز المصدر والنماذج المدربة مسبقا في https://github.com/paddlepaddle/ernie.
نقدم خوارزمية تدريبية مستهدفة بسيطة ولكنها فعالة (TAT) لتحسين التدريب الخصم لفهم اللغة الطبيعية.الفكرة الرئيسية هي أن تخطئ الأخطاء الحالية وتحديد أولويات التدريب على الخطوات إلى حيث يخطئ النموذج أكثر.تظهر التجارب أن TAT يمكن أن تحسن بشكل كبير الدقة ع لى التدريب الخصم القياسي على الغراء وتحقيق نتائج جديدة من أحدث النتائج في XNLI.سيتم إصدار شفرة لدينا عند قبول الورقة.
كشف ترتيب القراءة هو حجر الزاوية لفهم المستندات البصرية (على سبيل المثال، الإيصالات والأشكال). لسوء الحظ، أي عمل موجود استفاد من نماذج التعلم العميقة المتقدمة لأنها شاقة للغاية للتعليق على مجموعة بيانات كبيرة بما فيه الكفاية. نلاحظ أن ترتيب القراءة م ن مستندات Word مضمن في بيانات تعريف XML الخاصة بهم؛ وفي الوقت نفسه، من السهل تحويل مستندات Word إلى ملفات PDF أو الصور. لذلك، في طريقة تلقائية، نقوم ببناء Redlybank، مجموعة بيانات معيار تحتوي على ترتيب القراءة والنصوص والتخطيط لمعلومات 500000 صورة وثيقة تغطي مجموعة واسعة من أنواع المستندات. هذه مجموعة بيانات كبيرة على نطاق واسع يطلق تشغيل قوة الشبكات العصبية العميقة لكشف عن الطلب. على وجه التحديد، يلتقط LayoTreader المقترح معلومات النص والتخطيط لتوقعات ترتيب القراءة باستخدام نموذج SEQ2SEQ. يؤدي ذلك بشكل مثالي تقريبا في اكتشاف أمر القراءة ويحسن بشكل كبير من محركات الحرية الخارجية المفتوحة والمصادر الحرارية في ترتيب خطوط نصية في نتائجها في تجاربنا. يتم توفير مجموعة البيانات والنماذج علنا ​​في https://aka.ms/layouoTreader.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا