يتم تدريب نماذج التسلسل الحالية للتسلسل لتقليل الانتروبي عبر الانتروبيا واستخدام SoftMax لحساب الاحتمالات العادية محليا على تسلسلات الهدف. على الرغم من أن هذا الإعداد قد أدى إلى نتائج قوية في مجموعة متنوعة من المهام، فإن إحدى الجوانب غير المرضية هي التحيز الطول: تمنح النماذج درجات عالية لفرضيات قصيرة وعدم كفاية وغالبا ما تجعل السلسلة الفارغة The Argmax --- ما يسمى القط حصلت على لسانك مشكلة. تقدم نماذج تسلسل متناشرة مقرها ENTMAX مؤخرا حلا محتملا، نظرا لأنهم يستطيعون تقليص مساحة البحث عن طريق تعيين احتمال صفر لفرضيات سيئة، ولكن قدرتهم على التعامل مع المهام على مستوى الكلمات مع المحولات قد تم اختبارها قط. في هذا العمل، نظهر أن النماذج المستندة إلى Entmax تحل فعليا القط حصلت على مشكلة لسانك، وإزالة مصدر رئيسي لخطأ نموذج الترجمة الآلية العصبية. بالإضافة إلى ذلك، نعيد بتعميم تجانس الملصقات، وهي تقنية تنظيمية حاسمة، إلى عائلة أوسع من الخسائر الشابة الشابة، والتي تشمل كل من انتروبيا وخسائر Entmax. وضعت نماذج خسارة Entmax الناتجة عن الملصقات الناتجة حالة جديدة من الفن على تحويل Grapheme-Vooneme في Grapheme وتقديم التحسينات وخصائص معايرة أفضل على الانعطاف المورفولوجي عبر اللغات والترجمة الآلية لمدة 7 أزواج لغة.
Current sequence-to-sequence models are trained to minimize cross-entropy and use softmax to compute the locally normalized probabilities over target sequences. While this setup has led to strong results in a variety of tasks, one unsatisfying aspect is its length bias: models give high scores to short, inadequate hypotheses and often make the empty string the argmax---the so-called cat got your tongue problem. Recently proposed entmax-based sparse sequence-to-sequence models present a possible solution, since they can shrink the search space by assigning zero probability to bad hypotheses, but their ability to handle word-level tasks with transformers has never been tested. In this work, we show that entmax-based models effectively solve the cat got your tongue problem, removing a major source of model error for neural machine translation. In addition, we generalize label smoothing, a critical regularization technique, to the broader family of Fenchel-Young losses, which includes both cross-entropy and the entmax losses. Our resulting label-smoothed entmax loss models set a new state of the art on multilingual grapheme-to-phoneme conversion and deliver improvements and better calibration properties on cross-lingual morphological inflection and machine translation for 7 language pairs.
References used
https://aclanthology.org/
Selective rationalization aims to produce decisions along with rationales (e.g., text highlights or word alignments between two sentences). Commonly, rationales are modeled as stochastic binary masks, requiring sampling-based gradient estimators, whi
While Automatic Speech Recognition has been shown to be vulnerable to adversarial attacks, defenses against these attacks are still lagging. Existing, naive defenses can be partially broken with an adaptive attack. In classification tasks, the Random
Copy mechanisms explicitly obtain unchanged tokens from the source (input) sequence to generate the target (output) sequence under the neural seq2seq framework. However, most of the existing copy mechanisms only consider single word copying from the
Seq2seq models have demonstrated their incredible effectiveness in a large variety of applications. However, recent research has shown that inappropriate language in training samples and well-designed testing cases can induce seq2seq models to output
In this research, we are studying the possibility of contribution in solving the Vehicle
Routing Problem with Time Windows(VRPTW),that is one of the optimization problems
of the NP-hard type.
Moreover, Hybrid algorithm (HA) provided that integrate