ترغب بنشر مسار تعليمي؟ اضغط هنا

آلية عامة للحد من التكرار في نماذج تشفير فك التشفير

Generic Mechanism for Reducing Repetitions in Encoder-Decoder Models

384   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم استخدام نماذج ترميز فك التشفير بشكل شائع للعديد من المهام مثل الترجمة الآلية وتوليد الاستجابة.كما ذكرت البحث السابق، تعاني هذه النماذج من توليد التكرار الزائد.في هذا البحث، نقترح آلية جديدة لنماذج تشفير التشفير التي تقدر الاختلاف الدلالي في جملة مصدر قبل وبعد تغذية في نموذج فك التشفير لالتقاط الاتساق بين الجانبين.تساعد هذه الآلية في تقليل الرموز التي تم إنشاؤها مرارا وتكرارا لمجموعة متنوعة من المهام.نتائج التقييم على مجموعات بيانات توليد الترجمة والاستجابة المتاحة للجمهورية توضح فعالية اقتراحنا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم الورقة أربع نماذج مقدمة إلى الجزء 2 من المهمة المشتركة Sigmorphon 2021 0، التي تهدف إلى تكرار الأحكام الإنسانية على انعطاف أحادي الإكسآت.هدفنا هو استكشاف فائدة الجمع بين الأنماط التناظرية التي تم تجميعها مسبقا مع بنية تشفير فك الترميز.تم تصميم ن موذجين باستخدام هذه الأنماط إما في الإدخال أو إخراج الشبكة.نماذج إضافية يتم التحكم فيها لدور التشابه الخام للنماذج المؤذية غير المصنفة للأشكال المصابة الموجودة في نفس خلية النموذج، ودور تواتر نوع الأنماط التناظرية.استراتيجيتنا غير داخلي تماما بمعنى أن النماذج تستأنف فقط البيانات المقدمة من منظمي Sigmorphon، دون استخدام موارد خارجية.تحتل نموذجنا 2 المرتبة الثانية بين جميع الأنظمة المقدمة، مما يشير إلى أن إدراج أنماط تكنولوجية في بنية الشبكة مفيدة في تنبؤات مكبرات الصوت المحاكمة.
في هذه الورقة، نقدم طريقة جديدة لتدريب نموذج تحسين الكتابة تتكيف مع لغة الكاتب الأولى (L1) التي تتجاوز تصحيح الخطأ النحوي (GEC).بدون استخدام بيانات التدريب المشروح، فإننا نعتمد فقط على نماذج اللغة المدربة مسبقا بشكل جيد مع الترجمة المرجانية المتوازية المحاذاة مع الترجمة الآلية.نحن نقيم نموذجنا مع شركة كورسا للأوراق الأكاديمية المكتوبة باللغة الإنجليزية من قبل علماء L1 البرتغالية و L1 الإسبان وشركة مرجعية من الخبراء الإنجليزية الأكاديمية.نظرا لأن طرازنا قادر على معالجة الكتابة المحددة التي أثرت على L1 والأظاهرة اللغوية أكثر تعقيدا من الأساليب الحالية، مما يتفوق على ما يمكن أن يحققه نظام GEC للحكومة في هذا الصدد.الكود والبيانات لدينا مفتوحة للباحثين الآخرين.
نحن غالبا ما نستخدم الاضطرابات لتنظيم النماذج العصبية.بالنسبة للكشف عن المشفر العصبي، طبقت الدراسات السابقة أخذ العينات المجدولة (بنغيو وآخرون.، 2015) والاضطرابات الخصومة (SATO et al.، 2019) كشراءات ولكن هذه الطرق تتطلب وقتا حسابيا كبيرا.وبالتالي، فإ ن هذه الدراسة تعالج مسألة ما إذا كانت هذه الأساليب فعالة بما يكفي لتدريب الوقت.قارنا العديد من الاضطرابات في مشاكل التسلسل إلى التسلسل فيما يتعلق بالوقت الحاسوبية.تظهر النتائج التجريبية أن التقنيات البسيطة مثل Hold Dropout (GAL و GHAHRAMANI، 2016) واستبدال عشوائي من الرموز المدخلات يحققون درجات قابلة للمقارنة (أو أفضل) إلى الاضطرابات المقترحة مؤخرا، على الرغم من أن هذه الطرق البسيطة أسرع.
نظرا لفعاليتها وأدائها، اجتذب نموذج الترجمة المحولات اهتماما واسعا، مؤخرا من حيث النهج القائمة على التحقيق. يركز العمل السابق على استخدام أو التحقيق في الميزات اللغوية المصدر في التشفير. حتى الآن، فإن الطريقة التي تتطور فيها ترجمة كلمة تتطور في طبقات المحولات لم يتم التحقيق فيها بعد. ساذجا، قد يفترض المرء أن طبقات التشفير التقاط معلومات المصدر أثناء ترجمة طبقات فك التشفير. في هذا العمل، نظير على أن هذا ليس كذلك: الترجمة تحدث بالفعل تدريجيا في طبقات التشفير وحتى في تضمين المدخلات. أكثر من المستغرب، نجد أن بعض طبقات وحدة فك التشفير المنخفضة لا تفعل ذلك بالفعل فك التشفير. نعرض كل هذا من حيث النهج التحقيق حيث نعلم تمثيلات الطبقة التي تم تحليلها إلى مستوى التصنيف المدربين والمجمد النهائي من وحدة فك الترميز المحول لقياس دقة ترجمة Word. تحفز النتائج التي توصلنا إليها وشرح تغيير تكوين محول: إذا حدث الترجمة بالفعل في طبقات التشفير، فربما يمكننا زيادة عدد طبقات التشفير، مع تقليل عدد طبقات فك ترميز أو زيادة سرعة فك التشفير، دون خسارة في جودة الترجمة؟ تبين تجاربنا أن هذا هو في الواقع الحالة: يمكننا زيادة السرعة إلى عامل 2.3 مع مكاسب صغيرة في جودة الترجمة، في حين أن تكوين التشفير العميق 18-4 يعزز جودة الترجمة عن طريق +1.42 بلو (EN-DE) بسرعة -1.4 1.4.
تحصل آليات النسخ بشكل صريح على الرموز دون تغيير من تسلسل المصدر (الإدخال) لإنشاء تسلسل الهدف (الإخراج) ضمن إطار SEQ2SEQ العصبي.ومع ذلك، فإن معظم آليات النسخ الحالية تفكر فقط في نسخ كلمة واحدة من الجمل المصدر، مما يؤدي إلى فقدان الرموز الأساسية أثناء نسخ يمتد لفترة طويلة.في هذا العمل، نقترح هندسة التوصيل والتشغيل، وهي Biocopy، لتخفيف المشكلة المذكورة أعلاه.على وجه التحديد، في مرحلة التدريب، نقوم ببناء علامة حيوية لكل رمزية وتدريب النموذج الأصلي مع علامات الحيوية بشكل مشترك.في مرحلة الاستدلال، سيتوقع النموذج أولا العلامة الحيوية في كل خطوة زمنية، ثم إجراء استراتيجيات قناع مختلفة استنادا إلى الملصق الحيوي المتوقع لتقليل نطاق توزيعات الاحتمالات على قائمة المفردات.النتائج التجريبية على اثنين من المهام الإدارية المنفصلة تظهر أنهم يتفوقون جميعا على النماذج الأساسية عن طريق إضافة البوغايت لدينا إلى هيكل النموذج الأصلي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا