ترغب بنشر مسار تعليمي؟ اضغط هنا

الاهتمام للأوزان في محول NMT فشل محاذاة الكلمات بين التسلسلات ولكن شرح تنبؤات نموذج إلى حد كبير

Attention Weights in Transformer NMT Fail Aligning Words Between Sequences but Largely Explain Model Predictions

208   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يقترح هذا العمل تحليلا مكثفا للهندسة المعمارية المحول في إعداد الترجمة الآلية العصبية (NMT).مع التركيز على آلية اهتمام التشفير في فك التشفير، نثبت أن أوزان الاهتمام بانتظام أخطاء المحاذاة من خلال الاعتماد بشكل أساسي على الرموز غير المصنفة من تسلسل المصدر.ومع ذلك، نلاحظ أن نماذج NMT تخصص الاهتمام بهؤلاء الرموز لتنظيم المساهمة في التنبؤ بالسياقتين المصدرين وبادئة التسلسل المستهدف.نحن نقدم دليلا على تأثير محاذاة خاطئة على السلوك النموذجي، مما يدل على أن آلية اهتمام فك تشفير التشفير مفاجأة بشكل جيد كطريقة الترجمة الترجمة الترجمة الشخصية ل NMT.أخيرا، استنادا إلى تحليلنا، نقترح طرق تقلل إلى حد كبير معدل خطأ محاذاة الكلمة مقارنة بالمحاذاة المستحثة القياسية من أوزان الاهتمام.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نقدم نهجا لشرح تنبؤات شجرة القرار (DT) من خلال معالجة النزاعات المحتملة بين جوانب هذه التنبؤات والتوقعات المعقولة المرخصة من المعلومات الأساسية.نحن نحدد أربعة أنواع من النزاعات، وتفعيل هويتها، وتحديد مخططات توضيحية تعالجها.ركز تقييمنا البشري على تأثير التفسيرات المتعلقة بفهم المستخدمين لسبب DT واستعدادهم للعمل على تنبؤاتها.تظهر النتائج أن التفسيرات (1) تفسيرات التي تعالج النزاعات المحتملة تعتبر على الأقل جيدة مثل التفسيرات الأساسية التي تتبع مسار DT فقط؛و (2) يتم اعتبار التفسيرات القائمة على النزاعات قيمة خاصة عندما لا توافق توقعات المستخدمين في توقعات DT.
شرح نماذج الشبكة العصبية مهمة لزيادة جدورث بالثقة في تطبيقات العالم الحقيقي. توليد معظم الأساليب الموجودة تفسيرات ما بعد الهخص لنماذج الشبكة العصبية من خلال تحديد وسمات الميزات الفردية أو الكشف عن التفاعلات بين الميزات المجاورة. ومع ذلك، بالنسبة للنم اذج التي تحتوي على أزواج نصية كدخلات (على سبيل المثال، التعريف بإعادة صياغة التعريف)، فإن الأساليب الموجودة ليست كافية لالتقاط تفاعلات الميزات بين نصين وتمديدها البسيط لحساب جميع تفاعلات Word-Beach بين نصفي غير فعال. في هذا العمل، نقترح طريقة Group Mask (GMASK) لتكتشف ضمنيا علاقات الكلمات من خلال تجميع الكلمات المرتبطة من زوج إدخال الإدخال معا وقياس مساهمتها في مهام NLP المقابلة ككل. يتم تقييم الطريقة المقترحة مع اثنين من بنية نموذجية مختلفة (نموذج الاهتمام للتحلل) عبر أربع مجموعات بيانات، بما في ذلك الاستدلال اللغوي الطبيعي وإعادة صياغة مهام التعريف. تظهر التجارب فعالية Gmask في توفير تفسيرات مخلصة لهذه النماذج.
تجزئة الكلمات، مشكلة إيجاد حدود الكلمات في الكلام، تهم مجموعة من المهام.اقترحت الأوراق السابقة أن نماذج تسلسل إلى تسلسل تدربت على مهام مثل ترجمة الكلام أو التعرف على الكلام، ويمكن استخدام الاهتمام لتحديد الكلمات والجزء.ومع ذلك، نوضح ذلك حتى على بيانا ت أحادية النظرة هشة.في تجاربنا ذات أنواع المدخلات المختلفة، أحجام البيانات، وخوارزميات تجزئة، فقط النماذج المدربة على التنبؤ بالهواتف من الكلمات تنجح في المهمة.النماذج المدربة للتنبؤ بالكلف من الهواتف أو الكلام (أي، الاتجاه المعاكس الذي يحتاج إلى تعميم البيانات الجديدة)، يؤدي إلى نتائج أسوأ بكثير، مما يشير إلى أن التجزئة القائمة على الانتباه مفيد فقط في سيناريوهات محدودة.
نماذج الموضوعات العصبية (NTMS) تطبيق الشبكات العصبية العميقة إلى نمذجة الموضوعات. على الرغم من نجاحها، تجاهل NTMS عموما جائبا مهمين: (1) فقط يتم استخدام معلومات عدد الكلمات على مستوى المستند للتدريب، في حين يتم تجاهل المزيد من المعلومات ذات المستوى ا لجميل على مستوى الجملة، و (2) المعرفة الدلالية الخارجية فيما يتعلق بالوثائق، الجمل والكلمات لم يتم استغلالها للتدريب. لمعالجة هذه المشكلات، نقترح نموذج NTM (VAE) AutoNCoder (VAE) بشكل مشترك إعادة بناء الجملة وكلمة الوثيقة التي تهمها مجموعات من المبيعات الموضعية في كيس الكلمات (القوس) و EMBEDDINGS الدلالي المدرب مسبقا. يتم تحويل المدينات المدربة مسبقا لأول مرة إلى مساحة موضة كامنة مشتركة لمواءمة دلالاتها مع تضمين القوس. يتميز نموذجنا أيضا باختلاف KL هرمي للاستفادة من تضمينات كل وثيقة لتوسيع نطاق جملهم، مما يدفع المزيد من الاهتمام للجمل ذات الصلة الدولى. أظهرت كل من التجارب الكمية والنوعية فعالية نموذجنا في 1) خفض أخطاء إعادة الإعمار على كل من المستويات الجملة والوثائق، و 2) اكتشاف موضوعات أكثر تماسكا من مجموعات بيانات العالم الحقيقي.
تكسب المكالمات هي من بين الموارد المهمة للمستثمرين والمحللين لتحديث أهداف الأسعار الخاصة بهم. الشركات عادة ما تنشر النصوص المقابلة قريبا بعد أحداث الأرباح. ومع ذلك، فإن النصوص الخام هي في كثير من الأحيان طويلة جدا وتفوت الهيكل المتماسك. لتعزيز الوضوح ، يكتب المحللون تقارير منظما جيدا لبعض أحداث استدعاء الأرباح الهامة من خلال تحليلها، تتطلب الوقت والجهد. في هذه الورقة، نقترح تاتسوم (نموذج الاهتمام بإنفاذ القالب للتلخيص)، ونهج تلخيص عصبي معمم لتوليد التقرير المنظم، وتقييم أدائه في مجال مكالمات الأرباح. نحن نبني كوربا كبيرا مع الآلاف من النصوص والتقارير باستخدام أحداث الأرباح التاريخية. نقوم أولا بتوليد مجموعة مرشحة من التقارير من Corpus كقوالب ناعمة محتملة لا تفرض قواعد فعلية على الإخراج. بعد ذلك، نوظف نموذج تشفير مع فقدان الهامش المرتبة لتحديد مجموعة المرشح وحدد أفضل قالب الجودة. أخيرا، يتم استخدام النص والقالب الناعم المحدد كإدخال في إطار SEQ2SEQ لتوليد التقرير. النتائج التجريبية على مجموعة بيانات المكالمات الأرباح تظهر أن نموذجنا يتفوق بشكل كبير على النماذج الحديثة من حيث المعلومات والهيكل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا