ترغب بنشر مسار تعليمي؟ اضغط هنا

وصف النظام للبرنامج - SMMH: الأمثل Finetuning من محول محول مسبقا ونظارات Word

System description for ProfNER - SMMH: Optimized finetuning of a pretrained transformer and word vectors

327   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يصور وصف نظام المهام المشترك هذا اثنين من بنيات الشبكة العصبية المقدمة إلى المسار الصحيح، من بينها النظام الفائز الذي سجل الأعلى في المهام الفرعية 7A و 7 ب.نقدم بالتفصيل النهج، خطوات المعالجة المسبقة والبنية المستخدمة لتحقيق النتائج المقدمة، وكذلك توفير مستودع جيثب لإعادة إنتاج الدرجات.يعتمد النظام الفائز على نموذج لغة مسبق من المحولات وحل المهام الفرعية في وقت واحد.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أصبحت السيارات التلقائية النصية النصية (VAES) سيئة السمعة بالنسبة للانهيار الخلفي، وهي ظاهرة حيث يتعلم وحدة فك ترميز النموذج أن تجاهل الإشارات من التشفير.نظرا لأنه من المعروف أن الانهيار الخلفي يتم تفاقمه من خلال أجهزة فك ترميز التعبير، فقد شهدت المح ولات اعتمادا محدودا كمكون مكونات في VAES النصية.الدراسات القائمة التي تضم المحولات في مبيعات النصوص (لي وآخرون، 2020؛ فانغ وآخرون.، 2021) تخفيف الانهيار الخلفي باستخدام محاولات ضخمة، وهي تقنية غير متوفرة لمعظم مجتمع البحث دون موارد حوسبة واسعة النطاق.نقدم خطة تدريبية بسيطة من مرحلتين لتحويل محول تسلسل إلى تسلسل إلى VIE مع Finetuning فقط.النموذج اللغوي الناتج هو تنافسية مع VAES المستندة إلى المحولات بشكل كبير في بعض المقاييس الداخلية مع الوقوع على الآخرين.لتسهيل التدريب، استكشفنا بشكل شامل تأثير تقنيات تخفيف الطيام الخلفي المشترك في الأدب.نطلق سرد كودنا للاستكشاف.
في تجربة حالية، كنا نقوم باختبار DataSet Commongen للمهمة الهيكلية إلى النص من GEM Living Benchmark مع نموذج مؤشر القيد القائم.يمثل المؤشر هندسة هجينة، والجمع بين النماذج القائمة على الإدراج والمحول، والتنبؤ بالكمية وموقع الإدراج في نفس الوقت.لذلك يت م إنشاء النص تدريجيا بطريقة غير متوازية غير تلقائية، بالنظر إلى مجموعة الكلمات الرئيسية.كان النموذج المحدد ضبطه بشكل جيد على تقسيم تدريب لمجموعة بيانات Commungen وتم مقارنة نتيجة الجيل بالتحقق من الصحة والتحدي.تتم مناقشة مخرجات المقاييس المستلمة، والتي تقيس المعادلات المعجمية، التشابه الدلالي والتنوع، في التفاصيل في وصف النظام الحالي.
تنطوي تنبؤ التعقيد المعجمي (LCP) على تعيين درجة صعوبة إلى كلمة أو تعبير معين، في نص مخصص للجمهور المستهدف.في هذه الورقة، نقدم نظام جديد يعتمد على التعلم العميق لهذه المهمة الصعبة.يتكون النظام المقترح من نموذج تعليمي عميق، استنادا إلى تشفير المحولات ا لمدربة مسبقا، من أجل تنبؤ تعقيد Word و Expression متعدد الكلمة (MWE).أولا، في الجزء العلوي من تضمين الكلمة السياقية في التشفير، توظف نموذجنا طبقة اهتماما في سياق الإدخال والكلمة المعقدة أو MWE.بعد ذلك، يتسلل إخراج الانتباه مع الإخراج المجمع من التشفير وتمتاز إلى وحدة الانحدار.نحن نحقق في كل من المهمة الفردية والتدريب المشترك على كلا بيانات المهام الفرعية باستخدام الترميز المتعدد المدربين مسبقا.النتائج التي تم الحصول عليها واعدة للغاية وتعرض فعالية المحولات التي تم تدريبها مسبقا على مهام LCP.
حقق المحول نجاحا كبيرا في مجال NLP من خلال تأليف نماذج متقدمة مختلفة مثل Bert و GPT. ومع ذلك، قد لا تكون المحول ومتغيراتها الحالية هي الأمثل في التقاط مسافات رمزية لأن الموضع أو المدينات المسافة التي تستخدمها هذه الأساليب عادة لا يمكن أن تبقي المعلوم ات الدقيقة للمسافات الحقيقية، والتي قد لا تكون مفيدة لنمذجة أوامر وعلاقات السياقات. في هذه الورقة، نقترح Da-Transformer، وهو محول أدرك عن بعد يمكنه استغلال المسافة الحقيقية. نقترح دمج المسافات الحقيقية بين الرموز الرموز لإعادة توسيع نطاق أوزانات اهتمام الذات الخام، والتي يتم حسابها بأهمية استفسار الاهتمام والمفتاح. بشكل ملموس، يرأس نفس الاهتمام الذاتي مختلف المسافة النسبية بين كل زوج من الرموز المرجحة بواسطة معلمات مختلفة يمكن أن تتحكم في تفضيلات مختلفة على المعلومات الطويلة أو قصيرة الأجل من هذه الرؤوس. نظرا لأن المسافات الحقيقية المرجحة الخام قد لا تكون مثالية لضبط أوزان الاهتمام الذاتي، فإننا نقترح وظيفة Sigomoid ذاتيا في تعيينها في معاملات إعادة التحجيم التي لها نطاقات مناسبة. نحن نقطع لأوزان اهتمام الذات الخام أولا عبر وظيفة RELU للحفاظ على عدم السلبية وإدخال Sparsity، ثم اضربها مع معاملات إعادة التحجيم لترميز معلومات حقيقية عن مسافة عن بعد. تظهر تجارب واسعة على خمسة مجموعات بيانات قياسية أن DA-Transformer يمكن أن يحسن بشكل فعال أداء العديد من المهام وتفوق محول الفانيليا وعدة من المتغيرات.
نظرا لفعاليتها وأدائها، اجتذب نموذج الترجمة المحولات اهتماما واسعا، مؤخرا من حيث النهج القائمة على التحقيق. يركز العمل السابق على استخدام أو التحقيق في الميزات اللغوية المصدر في التشفير. حتى الآن، فإن الطريقة التي تتطور فيها ترجمة كلمة تتطور في طبقات المحولات لم يتم التحقيق فيها بعد. ساذجا، قد يفترض المرء أن طبقات التشفير التقاط معلومات المصدر أثناء ترجمة طبقات فك التشفير. في هذا العمل، نظير على أن هذا ليس كذلك: الترجمة تحدث بالفعل تدريجيا في طبقات التشفير وحتى في تضمين المدخلات. أكثر من المستغرب، نجد أن بعض طبقات وحدة فك التشفير المنخفضة لا تفعل ذلك بالفعل فك التشفير. نعرض كل هذا من حيث النهج التحقيق حيث نعلم تمثيلات الطبقة التي تم تحليلها إلى مستوى التصنيف المدربين والمجمد النهائي من وحدة فك الترميز المحول لقياس دقة ترجمة Word. تحفز النتائج التي توصلنا إليها وشرح تغيير تكوين محول: إذا حدث الترجمة بالفعل في طبقات التشفير، فربما يمكننا زيادة عدد طبقات التشفير، مع تقليل عدد طبقات فك ترميز أو زيادة سرعة فك التشفير، دون خسارة في جودة الترجمة؟ تبين تجاربنا أن هذا هو في الواقع الحالة: يمكننا زيادة السرعة إلى عامل 2.3 مع مكاسب صغيرة في جودة الترجمة، في حين أن تكوين التشفير العميق 18-4 يعزز جودة الترجمة عن طريق +1.42 بلو (EN-DE) بسرعة -1.4 1.4.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا