يتم تدريب نماذج التسلسل الحالية للتسلسل لتقليل الانتروبي عبر الانتروبيا واستخدام SoftMax لحساب الاحتمالات العادية محليا على تسلسلات الهدف. على الرغم من أن هذا الإعداد قد أدى إلى نتائج قوية في مجموعة متنوعة من المهام، فإن إحدى الجوانب غير المرضية هي التحيز الطول: تمنح النماذج درجات عالية لفرضيات قصيرة وعدم كفاية وغالبا ما تجعل السلسلة الفارغة The Argmax --- ما يسمى القط حصلت على لسانك مشكلة. تقدم نماذج تسلسل متناشرة مقرها ENTMAX مؤخرا حلا محتملا، نظرا لأنهم يستطيعون تقليص مساحة البحث عن طريق تعيين احتمال صفر لفرضيات سيئة، ولكن قدرتهم على التعامل مع المهام على مستوى الكلمات مع المحولات قد تم اختبارها قط. في هذا العمل، نظهر أن النماذج المستندة إلى Entmax تحل فعليا القط حصلت على مشكلة لسانك، وإزالة مصدر رئيسي لخطأ نموذج الترجمة الآلية العصبية. بالإضافة إلى ذلك، نعيد بتعميم تجانس الملصقات، وهي تقنية تنظيمية حاسمة، إلى عائلة أوسع من الخسائر الشابة الشابة، والتي تشمل كل من انتروبيا وخسائر Entmax. وضعت نماذج خسارة Entmax الناتجة عن الملصقات الناتجة حالة جديدة من الفن على تحويل Grapheme-Vooneme في Grapheme وتقديم التحسينات وخصائص معايرة أفضل على الانعطاف المورفولوجي عبر اللغات والترجمة الآلية لمدة 7 أزواج لغة.
Current sequence-to-sequence models are trained to minimize cross-entropy and use softmax to compute the locally normalized probabilities over target sequences. While this setup has led to strong results in a variety of tasks, one unsatisfying aspect is its length bias: models give high scores to short, inadequate hypotheses and often make the empty string the argmax---the so-called cat got your tongue problem. Recently proposed entmax-based sparse sequence-to-sequence models present a possible solution, since they can shrink the search space by assigning zero probability to bad hypotheses, but their ability to handle word-level tasks with transformers has never been tested. In this work, we show that entmax-based models effectively solve the cat got your tongue problem, removing a major source of model error for neural machine translation. In addition, we generalize label smoothing, a critical regularization technique, to the broader family of Fenchel-Young losses, which includes both cross-entropy and the entmax losses. Our resulting label-smoothed entmax loss models set a new state of the art on multilingual grapheme-to-phoneme conversion and deliver improvements and better calibration properties on cross-lingual morphological inflection and machine translation for 7 language pairs.
المراجع المستخدمة
https://aclanthology.org/
يهدف الترشيد الانتقائي إلى إنتاج قرارات جنبا إلى جنب مع المناولة (على سبيل المثال، النصوص النصية أو محاذاة الكلمات بين جملتين). عادة ما يتم تصميم المنظمات على غرار أقنعة ثنائية عشوائية، تتطلب من أدراج التدرج المستندة إلى أخذ العينات، والتي تعقد التدر
في حين أن التعرف التلقائي على الكلام قد أظهر عرضة لهجمات الخصومة، فإن الدفاعات ضد هذه الهجمات لا تزال متأخرة.يمكن كسر الدفاعات الحالية والساذجة جزئيا مع هجوم على التكيف.في مهام التصنيف، تبين أن نموذج التجانس العشوائي فعال في النماذج الدفاعية.ومع ذلك،
تحصل آليات النسخ بشكل صريح على الرموز دون تغيير من تسلسل المصدر (الإدخال) لإنشاء تسلسل الهدف (الإخراج) ضمن إطار SEQ2SEQ العصبي.ومع ذلك، فإن معظم آليات النسخ الحالية تفكر فقط في نسخ كلمة واحدة من الجمل المصدر، مما يؤدي إلى فقدان الرموز الأساسية أثناء
أظهرت نماذج SEQ2SEQ فعالية لا تصدق في مجموعة كبيرة ومتنوعة من التطبيقات. ومع ذلك، أظهرت الأبحاث الحديثة أن اللغة غير اللائقة في عينات التدريب وحالات الاختبار المصممة مصممة يمكن أن تحفز نماذج SEQ2SeQ لإخراج الألفاظ النابية. قد تؤذي هذه المخرجات قابلية
ندرس في هذا البحث إمكانية المساهمة في حل مسألة توجيه المركبة مع نوافذ زمنية Vehicle Routing Problem with Time Windows (VRPTW) التي هي واحدة من مشاكل الأمثلية من النوع NP-Hard.
نقدم خوارزمية هجينة تعتمد على مبدأ التكامل بين خوارزمية البحث المحلي الم