ترغب بنشر مسار تعليمي؟ اضغط هنا

استكشاف أفضل تضمين المنافذ النسبي من منظور الترميز لنماذج المحولات

Explore Better Relative Position Embeddings from Encoding Perspective for Transformer Models

280   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إن تضمين الموضع النسبي (RPE) هو طريقة ناجحة لتشفير معلومات موقف مركزية وفعالة في نماذج المحولات.في هذه الورقة، نحقق في المشكلات المحتملة في Shaw-RPE و XL-RPE، والتي تعد أكثر من الممثلين والجلوب السائدة، واقتراح اثنين من روبيس رواية تسمى RPE الخشنة الخشنة الرفيعة المستوى الرفيع المستوى (LFHC)Gaussian وظيفة التوزيع التراكمي (GCDF) RPE.LFHC-RPE هو تحسن شو-RPE، مما يعزز قدرة التصور على المناصب النسبية المتوسطة والطويلة.تستخدم GCDF-RPE الخصائص الممتازة لوظيفة Gaussian لتعديل آلية الترميز السابقة في XL-RPE.النتائج التجريبية على تسعة مجموعات بيانات موثوقة تظهر فعالية أساليبنا تجريبيا.علاوة على ذلك، تحقق GCDF-RPE أفضل الأداء العام بين خمسة RPES مختلفة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نقدم Graformer، وهي عبارة عن بنية ترميز ترميز ترميز محول المبالية على أساس الرسوم البيانية إلى النص.مع انتباهنا عن الرسوم البيانية لروايتنا، يعتمد ترميز العقدة على جميع العقد في الرسم البياني للإدخال - ليس فقط الجيران المباشر - يسهل اكتشاف أنماط عالمية.نحن نمثل العلاقة بين العقدتين كطابع أقصر المسار بينهما.يتعلم Graformer الوزن هذه العلاقات العقدة العقدة بشكل مختلف عن رؤوس اهتمام مختلفة، وبالتالي تعلم وجهات نظر متصلة بشكل مختلف عن الرسم البياني للإدخال.نقوم بتقييم GRAFORMER على اثنين من المعايير الشهيرة في الرسم البياني إلى النص، وجدول الأعمال و Webnlg، حيث يحقق أداء قوي أثناء استخدام العديد من المعلمات أقل من الأساليب الأخرى.
نظرا للتدريب الفعال من خلال التدريب والطلاقة في النصوص المتولدة، يتم اقتراح العديد من النماذج القائمة على إطار ترميز وحدة فك الترميز في مؤخرا للأجيال إلى نص البيانات. الترميز المناسب لبيانات الإدخال هو جزء أساسي من نماذج وحدة فك التشفير هذه. ومع ذلك، ركزت فقط عدد قليل من الأعمال البحثية على أساليب الترميز السليم. تعرض هذه الورقة نموذجا جديدا لتنسيق البيانات إلى ترميز ترميز الترميز، حيث يرميز التشفير المقترح بعناية بيانات الإدخال وفقا للهيكل الأساسي للبيانات. يتم تقييم فعالية التشفير المقترح على حد سواء على حد سواء على حد سواء من خلال بيانات الإدخال خارج نطاق البيانات دون تغيير معنى تلك البيانات. لاختيار معلومات المحتوى المناسبة في البيانات المشفرة من التشفير، يشتمل النموذج المقترح على بوابات الاهتمام في وحدة فك الترميز. مع تجارب واسعة على DataSet Wikibio و E2E، نوضح أن النموذج لدينا يفوق على أحدث النماذج والعديد من أنظمة خط الأساس القياسية. تحليل النموذج من خلال اختبارات الأزمة المكونة والتقييم البشري يؤيد النموذج المقترح كنظام مؤلف جيدا.
تتيح المعالجة الإضافية أنظمة تفاعلية تستجيب بناء على المدخلات الجزئية، وهي خاصية مرغوبة على سبيل المثال في عوامل الحوار. تقوم بنية المحولات الشعبية حاليا بطبيعتها بمعالجة التسلسلات ككل، تجرد فكرة الوقت. محاولات العمل الحديثة لتطبيق المحولات بشكل تدري جي عن طريق إعادة التشغيل - تدريجيا من خلال التغذية بشكل متكرر، إلى نموذج غير متقلب، بادئات إدخال أطول بشكل متزايد لإنتاج مخرجات جزئية. ومع ذلك، فإن هذا النهج مكلف بشكل حسابي ولا يتجادل بكفاءة للتسلسل الطويل. بالتوازي، نشهد جهود لجعل المحولات أكثر كفاءة، على سبيل المثال المحول الخطي (LT) مع آلية تكرار. في هذا العمل، ندرس جدوى LT ل NLU تدريجي باللغة الإنجليزية. تبين نتائجنا أن نموذج LT المتكرر لديه أفضل أداء تدريجي وسرعة الاستدلال أسرع مقارنة بالمحول القياسي واللفنت مع إعادة التشغيل التدريجي، بتكلفة جزء من جودة غير متزايدة (التسلسل الكامل). نظرا لأن إسقاط الأداء يمكن تخفيفه عن طريق تدريب النموذج لانتظار السياق الصحيح قبل الالتزام بإخراج وأن التدريب بادئة الإدخال مفيد لتقديم المخرجات الجزئية الصحيحة.
تقدم هذه الورقة بيانات عن تصورات تدريب المتدربين في عملية MTPE وآثار التدريب على التدريب في هذا المجال.تهدف هذه الدراسة إلى تحليل أداء المتدربين في ثلاثة مهام MTPE الزوجية باللغة الإنجليزية البولندية ومقابلات ما بعد المهام لتحديد الحاجة إلى تعزيز مها رات تحرير الترجمة الآلية في تثقيف طلاب الترجمة.نظرا لأن القليل جدا من المعلومات المتعلقة بتدريب MTPE متاح، فقد يتم العثور على هذه الدراسة مفيدة.
لقد تم الاعتراف على نطاق واسع بأن معلومات بناء الجملة يمكن أن تساعد في أنظمة الترجمة الآلية العصبية في نهاية إلى نهادة لتحقيق ترجمة أفضل. من أجل دمج معلومات التبعية في NMT المحول، النهج الحالية إما استغلال العلاقات المعتمدة في الرأس المحلية، تجاهل جي رانها غير المحليين الذين يحملون سياق مهم؛ أو تقريبي كلمتين "العلاقة الأساسية" من خلال المسافة النسبية الخاصة بها على شجرة التبعية، والتضحية بالضيق. لمعالجة هذه المشكلات، نقترح الترميز الموضعي العالمي لشجرة التبعية، وهو مخطط جديد يسهل نمذجة العلاقة النحوية بين أي كلمتين مع الحفاظ على الدقة ودون قيود جارتها الفورية. نتائج التجربة على NC11 الألمانية → الإنجليزية والإنجليزية → الألمانية و WMT الإنجليزية → تظهر مجموعات البيانات الألمانية أن نهجنا أكثر فعالية من الاستراتيجيتين المذكورتين أعلاه. بالإضافة إلى ذلك، نظرا لأن تجاربنا تظهر كميا أن مقارنة بطبقات أعلى، فإن الطبقات المنخفضة للنموذج هي أماكن أكثر أهمية لإدماج معلومات بناء الجملة من حيث تفضيل كل طبقة للنمط النحوي والأداء النهائي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا