دفع نجاح ترميزات ثنائية الاتجاه باستخدام نماذج لغة ملثم، مثل بيرت، في العديد من مهام معالجة اللغة الطبيعية، بباحثي المحاولة لإدماج هذه النماذج المدربة مسبقا في أنظمة الترجمة الآلية العصبية (NMT). ومع ذلك، فإن الأساليب المقترحة لإدماج النماذج المدربة مسبقا هي غير تافهة وتركز بشكل أساسي على بيرتف، والتي تفتقر إلى مقارنة التأثير الذي قد يكون له النماذج الأخرى المدربة مسبقا على أداء الترجمة. في هذه الورقة، نوضح ببساطة باستخدام الناتج (Attentralized Advedings) من طراز لغة تدرب مسبقا مخصص ومناسب (Bibert) مناسبة (Bibert) حيث أن إدخال ترميز NMT يحقق أداء ترجمة حديثة من بين الفن. علاوة على ذلك، نقترح أيضا نهج اختيار طبقة مؤشر استوكاستك ومفهوم نموذج الترجمة المزدوج الاتجاه لضمان الاستخدام الكافي للمشروعات السياقية. في حالة عدم استخدام الترجمة الخلفية، تحقق أفضل النماذج لدينا درجات بلو من 30.45 ل ill → DE و 38.61 ل De → EN على DataSet IWSLT'14، و 31.26 ل EN → DE و 34.94 ل De → EN على WMT 14 DataSet، مما يتجاوز جميع الأرقام المنشورة.