ترغب بنشر مسار تعليمي؟ اضغط هنا

تستكشف هذه الورقة متغيرا من أساليب جيلات العناوين التلقائية، حيث يلزم وجود عنوان تم إنشاؤه لتضمين عبارة معينة مثل الشركة أو اسم المنتج. الأساليب السابقة باستخدام النماذج القائمة على المحولات تولد عنوانا يتضمن عبارة معينة من خلال توفير التشفير مع معلو مات إضافية مقابلة العبارة المحددة. ومع ذلك، لا يمكن أن تتضمن هذه الأساليب دائما العبارة في العنوان الذي تم إنشاؤه. مستوحاة من الأساليب السابقة القائمة على RNN توليد تسلسل رمزي في الاتجاهات الخلفية والأمام من العبارة المعينة، نقترح طريقة بسيطة قائمة على المحولات التي تضمن تضمين العبارة المحددة في العنوان الرفيع الناتج عن الجودة. ونحن ننظر أيضا في استراتيجية توليد عنوان جديدة تستفيد من ترتيب الجيل القابل للتحكم في المحولات. توضح تجاربنا مع Corpus الأخبار اليابانية أن أساليبنا، التي تضمن إدراج العبارة في العنوان الرئيسي، وتحقيق درجات Rouge مماثلة للأساليب السابقة القائمة على المحولات. نوضح أيضا أن استراتيجية توليدنا تؤدي أفضل من الاستراتيجيات السابقة.
على الرغم من التطورات الأخيرة في تطبيق نماذج اللغة المدربة مسبقا لتوليد نصوص عالية الجودة، فإن توليد مقاطع طويلة تحافظ على تماسك طويل المدى أمر صعب للغاية لهذه النماذج.في هذه الورقة، نقترح Discodvt، وهو محول متغيرات منفصلة على درايته لمعالجة مشكلة عد م الاتساق.يتعلم Discodvt تسلسل متغير منفصل يلخص الهيكل العالمي للنص، ثم ينطبق عليه لتوجيه عملية التوليد في كل خطوة فك التشفير.لزيادة تضمين المعلومات التي تدرك الخطاب في التمثيلات الكامنة المنفصلة، نقدم هدف إضافي لنموذج علاقات الخطاب داخل النص.نقوم بإجراء تجارب واسعة على مجموعة من مجموعات بيانات من القصة المفتوحة وإثبات أن الرموز الكامنة تعلم مراسلات ذات معنى لهياكل الخطاب التي توجه النموذج لتوليد النصوص الطويلة مع التماسك طويل المدى أفضل.
يقترح هذا العمل تحليلا مكثفا للهندسة المعمارية المحول في إعداد الترجمة الآلية العصبية (NMT).مع التركيز على آلية اهتمام التشفير في فك التشفير، نثبت أن أوزان الاهتمام بانتظام أخطاء المحاذاة من خلال الاعتماد بشكل أساسي على الرموز غير المصنفة من تسلسل ال مصدر.ومع ذلك، نلاحظ أن نماذج NMT تخصص الاهتمام بهؤلاء الرموز لتنظيم المساهمة في التنبؤ بالسياقتين المصدرين وبادئة التسلسل المستهدف.نحن نقدم دليلا على تأثير محاذاة خاطئة على السلوك النموذجي، مما يدل على أن آلية اهتمام فك تشفير التشفير مفاجأة بشكل جيد كطريقة الترجمة الترجمة الترجمة الشخصية ل NMT.أخيرا، استنادا إلى تحليلنا، نقترح طرق تقلل إلى حد كبير معدل خطأ محاذاة الكلمة مقارنة بالمحاذاة المستحثة القياسية من أوزان الاهتمام.
تتطلب أساليب التعلم المنهج الحالية للترجمة الآلية العصبية (NMT) أخذ العينات مبالغ كافية من العينات "من بيانات التدريب في مرحلة التدريب المبكر. هذا غير قابل للتحقيق دائما لغات الموارد المنخفضة حيث تكون كمية البيانات التدريبية محدودة. لمعالجة مثل هذا ا لقيد، نقترح نقه نهج تعليمي مناهج رواية حكيمة ينشئ كميات كافية من العينات السهلة. على وجه التحديد، يتعلم النموذج التنبؤ بتسلسل فرعي قصير من الجزء التالي من كل جملة مستهدفة في المرحلة المبكرة للتدريب. ثم يتم توسيع التسلسل الفرعي تدريجيا مع تقدم التدريب. مثل هذا التصميم المناهج الدراسي الجديد مستوحى من التأثير التراكمي لأخطاء الترجمة، مما يجعل الرموز الأخيرة أكثر تحديا للتنبؤ أكثر من البداية. تبين تجارب واسعة أن نهجنا يمكن أن تتفوق باستمرار على الأساس على خمسة أزواج لغات، خاصة لغات الموارد المنخفضة. يجمع بين نهجنا مع طرق مستوى الجملة يحسن أداء لغات الموارد العالية.
حققت الطرز المستندة إلى المحولات مثل Bert و Xlnet و XLM-R أداء أحدث في مختلف مهام NLP بما في ذلك تحديد اللغة الهجومية وخطاب الكراهية، وهي مشكلة مهمة في وسائل التواصل الاجتماعي.في هذه الورقة، نقدم Fbert، إعادة تدريب نموذج BERT على الصلبة، أكبر كوربوس لتحديد اللغة الإنجليزية الهجومية المتاحة مع أكثر من 1.4 مليون حالة هجومية.نقيم أداء Fbert الخاص بتحديد المحتوى الهجومي على مجموعات بيانات باللغة الإنجليزية المتعددة ونختبر عدة عتبات لاختيار المثيلات من الصلبة.سيتم توفير نموذج FberT بحرية للمجتمع.
تقترح هذه الورقة هندسة جديدة، والاهتمام المتقاطع محول المعزز (CAAT)، للحصول على ترجمة متزامنة.يهدف الإطار إلى تحسين نماذج السياسات والترجمة بشكل مشترك.للتفكير بشكل فعال في جميع مسارات عمل الترجمة المتزامنة للقراءة والكتابة، نقوم بتكييف طراز التعرف عل ى الكلام التلقائي عبر الإنترنت (ASR)، RNN-T، ولكن قم بإزالة القيود الخطية القوية، وهو أمر بالغ الأهمية لمهمة الترجمة للنظر في إعادة ترتيب.لجعل أعمال CAAT، نقدم خسارة زمنية جديدة يمكن تحسين توقعها بواسطة خوارزمية متخلفة للأمام.نقوم بتنفيذ CAAT مع محول بينما يمكن أيضا تنفيذ الهندسة المعمارية العامة CAAT مع أطر ترميز التشفير الأخرى القائمة على الانتباه.تشير التجارب على مهام الترجمة الفورية للكلمة إلى النص (S2T) والنصوص (T2T) إلى أن CAAT تحقق مفاضلات أفضل لجودة الكمون بشكل كبير مقارنة بنهج الترجمة المتزامنة التي من بين الفن.
لقد ظهرت وحدات محول كوسيلة فعالة من المعلمات لتخصص التشفير المسبق على المجالات الجديدة. استفادت محولات متعددة اللغات بشكل كبير (MMTS) بشكل خاص من التدريب الإضافي للمحولات الخاصة باللغة. ومع ذلك، فإن هذا النهج ليس قابلا للتطبيق بالنسبة للغالبية العظمى من اللغات، بسبب القيود في حجم الشقوق أو حساب الميزانيات. في هذا العمل، نقترح جنون G (جيل محول متعدد اللغات)، الذي يولد محولات لغة محلية من تمثيلات اللغة بناء على الميزات النموذجية. على عكس العمل السابق، يتيح نهجنا المجنون بوقتنا وفعال الفضاء (1) تبادل المعرفة اللغوية عبر اللغات و (2) استنتاج صفرية عن طريق توليد محولات لغة للغات غير المرئية. نحن نقيم بدقة جنون G في النقل الصفر - نقل عبر اللغات على علامة جزء من الكلام، وتحليل التبعية، والاعتراف كيان المسمى. أثناء تقديم (1) تحسين كفاءة ضبط الدقيقة (1) من خلال عامل حوالي 50 في تجاربنا)، (2) ميزانية معلمة أصغر، و (3) زيادة تغطية اللغة، لا تزال جنون جي تنافسية مع أساليب أكثر تكلفة للغة تدريب محول محدد في جميع اللوحة. علاوة على ذلك، فإنه يوفر فوائد كبيرة لغات الموارد المنخفضة، لا سيما في مهمة NER في لغات أفريقية منخفضة الموارد. أخيرا، نوضح أن أداء نقل جنون جي يمكن تحسينه عبر: (1) التدريب متعدد المصادر، أي، من خلال توليد ومجتمعة محولات لغات متعددة مع بيانات التدريب الخاصة بمهام المهام المتاحة؛ و (2) عن طريق مزيد من ضبط محولات جنون G للغات ولغات مع بيانات أحادية الأونلينغ.
العديد من الأعمال الحديثة في إظهار كلمة التحليل المعجمي ثنائي اللغة (BLI) Word Adgetdings كمنتجات في الفضاء Euclidean.على هذا النحو، يتم حلها عادة من خلال العثور على تحول خطي يقوم بخرائط Ageddings إلى مساحة مشتركة.بدلا من ذلك، قد تكون مفهومة Word Age ddings كما العقد في رسم بياني مرجح.هذا الإطار يتيح لنا فحص حي الرسم البياني للعقدة دون تولي التحول الخطي، ويستغل التقنيات الجديدة من أدب الأمثل في مطابقة الرسم البياني.لم تتم مقارنة هذه الأساليب المتناقضة في Bli حتى الآن.في هذا العمل، ندرس سلوك الأساليب Euclidean مقابل الأساليب القائمة القائم على الرسم البياني إلى Bli تحت شروط البيانات المختلفة وإظهار أنها تكمل بعضها البعض عند الجمع.نطلق سردنا في https://github.com/kellymarchisio/euc-v-graph-bli.
هدف التنبؤ بالحقائق في الحدث (EFP) هو تحديد درجة الواقعية لذكر الحدث، مما يمثل مدى احتمال ذكر الحدث في النص.أظهرت نماذج التعلم العميق الحالية أهمية الهياكل النحوية واللاللالية للجمل لتحديد كلمات السياق الهامة ل EFP.ومع ذلك، فإن المشكلة الرئيسية في نم اذج EFP هذه هي أنها تشفص مسارات القفزة الواحدة فقط بين الكلمات (I.E.، والاتصالات المباشرة) لتشكيل هياكل الجملة.في هذا العمل، نظهر أن مسارات القفزات متعددة القفزة بين الكلمات ضرورية أيضا لحساب هياكل الجملة ل EFP.تحقيقا لهذه الغاية، نقدم نموذجا للتعليم العميق الجديد ل EFP الذي يعتبر صراحة مسارات القفزات متعددة القفزات مع كل من الحواف القائمة على بناء الجملة والدلية بين الكلمات للحصول على هياكل الجملة للتعلم في EFP.نوضح فعالية النموذج المقترح عبر التجارب الواسعة في هذا العمل.
نقترح نظام رواية لاستخدام محول Levenshtein لأداء مهمة تقدير جودة مستوى Word.محول Levenshtein هو مناسب طبيعي لهذه المهمة: تم تدريبه على إجراء فك التشفير بطريقة تكرارية، يمكن لمحول Levenshtein أن يتعلم النشر بعد تحرير دون إشراف صريح.لزيادة تقليل عدم ال تطابق بين مهمة الترجمة ومهمة QE على مستوى الكلمة، نقترح إجراء تعلم نقل من مرحلتين على كل من البيانات المعززة وبيانات ما بعد التحرير البشري.نقترح أيضا الاستدلال لبناء ملصقات مرجعية متوافقة مع Finetuning على مستوى الكلمات الفرعية والاستدلال.النتائج على مجموعة بيانات المهام المشتركة WMT 2020 تشاركت إلى أن طريقةنا المقترحة لها كفاءة بيانات فائقة تحت الإعداد المقيد للبيانات والأداء التنافسي تحت الإعداد غير المقيد.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا