ترغب بنشر مسار تعليمي؟ اضغط هنا

التحقيق ترجمات كلمة في محول ومكتشف التداول لطبقات التشفير

Probing Word Translations in the Transformer and Trading Decoder for Encoder Layers

264   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نظرا لفعاليتها وأدائها، اجتذب نموذج الترجمة المحولات اهتماما واسعا، مؤخرا من حيث النهج القائمة على التحقيق. يركز العمل السابق على استخدام أو التحقيق في الميزات اللغوية المصدر في التشفير. حتى الآن، فإن الطريقة التي تتطور فيها ترجمة كلمة تتطور في طبقات المحولات لم يتم التحقيق فيها بعد. ساذجا، قد يفترض المرء أن طبقات التشفير التقاط معلومات المصدر أثناء ترجمة طبقات فك التشفير. في هذا العمل، نظير على أن هذا ليس كذلك: الترجمة تحدث بالفعل تدريجيا في طبقات التشفير وحتى في تضمين المدخلات. أكثر من المستغرب، نجد أن بعض طبقات وحدة فك التشفير المنخفضة لا تفعل ذلك بالفعل فك التشفير. نعرض كل هذا من حيث النهج التحقيق حيث نعلم تمثيلات الطبقة التي تم تحليلها إلى مستوى التصنيف المدربين والمجمد النهائي من وحدة فك الترميز المحول لقياس دقة ترجمة Word. تحفز النتائج التي توصلنا إليها وشرح تغيير تكوين محول: إذا حدث الترجمة بالفعل في طبقات التشفير، فربما يمكننا زيادة عدد طبقات التشفير، مع تقليل عدد طبقات فك ترميز أو زيادة سرعة فك التشفير، دون خسارة في جودة الترجمة؟ تبين تجاربنا أن هذا هو في الواقع الحالة: يمكننا زيادة السرعة إلى عامل 2.3 مع مكاسب صغيرة في جودة الترجمة، في حين أن تكوين التشفير العميق 18-4 يعزز جودة الترجمة عن طريق +1.42 بلو (EN-DE) بسرعة -1.4 1.4.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم استخدام نماذج ترميز فك التشفير بشكل شائع للعديد من المهام مثل الترجمة الآلية وتوليد الاستجابة.كما ذكرت البحث السابق، تعاني هذه النماذج من توليد التكرار الزائد.في هذا البحث، نقترح آلية جديدة لنماذج تشفير التشفير التي تقدر الاختلاف الدلالي في جملة م صدر قبل وبعد تغذية في نموذج فك التشفير لالتقاط الاتساق بين الجانبين.تساعد هذه الآلية في تقليل الرموز التي تم إنشاؤها مرارا وتكرارا لمجموعة متنوعة من المهام.نتائج التقييم على مجموعات بيانات توليد الترجمة والاستجابة المتاحة للجمهورية توضح فعالية اقتراحنا.
نحن التحقيق في نماذج لغة المحولات المدربة مسبقا لسد الاستدلال.نقوم أولا بالتحقيق في رؤوس الاهتمام الفردي في بيرت ومراقبة أن رؤساء الاهتمام في طبقات أعلى تركز بشكل بارز على سد العلاقات داخل المقارنة مع الطبقات المنخفضة والمتوسطة، وكذلك عدد قليل من رؤس اء اهتمامات محددة يركزون باستمرار على سد.الأهم من ذلك، نحن نفكر في نماذج اللغة ككل في نهجنا الثاني حيث يتم صياغة دقة سد العسرة كمهمة تتنبئة رمزية مثيرة للمثنين (من اختبار Cloze).تنتج صياغتنا نتائج متفائلة دون أي ضبط جيد، مما يشير إلى أن نماذج اللغة المدربة مسبقا تلتقط بشكل كبير في سد الاستدلال.يوضح تحقيقنا الإضافي أن المسافة بين المداعين - السابقة وسوء السياق المقدمة إلى النماذج اللغوية تلعب دورا مهما في الاستدلال.
تقدم الورقة أربع نماذج مقدمة إلى الجزء 2 من المهمة المشتركة Sigmorphon 2021 0، التي تهدف إلى تكرار الأحكام الإنسانية على انعطاف أحادي الإكسآت.هدفنا هو استكشاف فائدة الجمع بين الأنماط التناظرية التي تم تجميعها مسبقا مع بنية تشفير فك الترميز.تم تصميم ن موذجين باستخدام هذه الأنماط إما في الإدخال أو إخراج الشبكة.نماذج إضافية يتم التحكم فيها لدور التشابه الخام للنماذج المؤذية غير المصنفة للأشكال المصابة الموجودة في نفس خلية النموذج، ودور تواتر نوع الأنماط التناظرية.استراتيجيتنا غير داخلي تماما بمعنى أن النماذج تستأنف فقط البيانات المقدمة من منظمي Sigmorphon، دون استخدام موارد خارجية.تحتل نموذجنا 2 المرتبة الثانية بين جميع الأنظمة المقدمة، مما يشير إلى أن إدراج أنماط تكنولوجية في بنية الشبكة مفيدة في تنبؤات مكبرات الصوت المحاكمة.
تشكل طبقات الأعلاف إلى الأمام ثلثي معلمات نموذج المحولات، لكن دورها في الشبكة لا تزال غير مستكشفة.نظرا لأن طبقة الأعلاف إلى الأمام في نماذج اللغة المحولات تعمل كذكريات ذات قيمة رئيسية، حيث يرتبط كل مفتاح بأنماط نصية في أمثلة التدريب، وكل قيمة تحفز تو زيعا على مفردات الناتج.تبين تجاربنا أن الأنماط المستفادة قابلة للتفسير بشري، وأن الطبقات المنخفضة تميل إلى التقاط أنماط ضحلة، في حين تعلم الطبقات العليا تلك الدلالية أكثر.تكمل القيم أنماط إدخال المفاتيح من خلال تحفيز توزيعات الإخراج التي تركز كتلة الاحتمالية على الرموز المرجح أن تظهر مباشرة بعد كل نمط، خاصة في الطبقات العليا.أخيرا، نوضح أن إخراج طبقة الأعلاف إلى الأمام هو تكوين ذكرياتها، والتي تم تنصيرها لاحقا في جميع طبقات النموذج عبر الاتصالات المتبقية لإنتاج توزيع الناتج النهائي.
يصور وصف نظام المهام المشترك هذا اثنين من بنيات الشبكة العصبية المقدمة إلى المسار الصحيح، من بينها النظام الفائز الذي سجل الأعلى في المهام الفرعية 7A و 7 ب.نقدم بالتفصيل النهج، خطوات المعالجة المسبقة والبنية المستخدمة لتحقيق النتائج المقدمة، وكذلك تو فير مستودع جيثب لإعادة إنتاج الدرجات.يعتمد النظام الفائز على نموذج لغة مسبق من المحولات وحل المهام الفرعية في وقت واحد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا