نماذج الموضوعات هي أدوات مفيدة لتحليل وتفسير المواضيع الأساسية الرئيسية للنص الكبير.تعتمد معظم نماذج الموضوعات على حدوث كلمة Word لحساب موضوع، أي مجموعة مرجحة من الكلمات التي تمثل معا مفهوم دلالي رفيع المستوى.في هذه الورقة، نقترح نموذجا جديدا جديدا م
ختلفا عن الخفيفة الوزن في الوزن (SNTM) يتعلم سياق غني من خلال تعلم تمثيل موضوعي بالاشتراك من ثلاثة كلمات مشتركة وثيقة تنشأ ثلاثية.تشير نتائجنا التجريبية إلى أن نموذج الموضوع العصبي المقترح لدينا، SNTM، يتفوق على نماذج الموضوعات الموجودة سابقا في مقاييس الاتساق بالإضافة إلى دقة تجميع المستندات.علاوة على ذلك، بصرف النظر عن تماسك الموضوع وأداء التجميع، فإن طراز الموضوع العصبي المقترح لديه عدد من المزايا، وهي، كونها فعالة بشكل حسابي وسهل التدريب.
تصف هذه الورقة نظام Noahnmt المقدم إلى المهمة المشتركة WMT 2021 الخاصة بترجمة آلية منخفضة للغاية للإشراف على الموارد.النظام هو نموذج محول قياسي مزود بتقنية نقلنا الحديثة.كما توظف التقنيات المستخدمة على نطاق واسع من المعروف أنها مفيدة للترجمة الآلية ا
لعصبية، بما في ذلك الترجمة الترجمة الإلكترونية التكرارية، والصلفة المختارة، والوقت.يقدم التقديم النهائي أعلى بلو لثلاثة اتجاهات ترجمة.
في هذه الورقة، نقدم النظم المقدمة من فريقنا من معهد تكنولوجيا المعلومات والاتصالات (HIGH-VD / HES-SO) إلى مهمة MT غير الخاضعة للرقابة والموارد منخفضة للغاية.ندرس أولا التحسينات التي جلبت إلى نظام أساسي من خلال تقنيات مثل الترجمة الخلفي والتهيئة من نم
وذج الوالدين.نجد أن كلتا التقنيتين مفيدة وكافية للوصول إلى الأداء الذي يقارن مع أنظمة أكثر تطورا من مهمة 2020.بعد ذلك، نقدم تطبيق هذا النظام إلى مهمة 2021 للمزيد من الأغراض السربية العلوي تحت الإشراف (HSB) إلى الترجمة الألمانية، في كلا الاتجاهين.أخيرا، نقدم نظاما نظعا ل HSB-DE في كلا الاتجاهين، وللترجمة الألمانية غير الخاضعة للرقابة إلى أسفل ترجمة Sorbian (DSB)، والتي تستخدم التدريب المتعدد المهام مع مختلف جداول التدريب لتحسين الخط الأساسي.
استخراج العلاقات الإشراف على نطاق واسع يستخدم على نطاق واسع في بناء قواعد المعرفة بسبب كفاءته العالية.ومع ذلك، فإن الحالات التي تم الحصول عليها تلقائيا ذات جودة منخفضة مع العديد من الكلمات غير ذات الصلة.بالإضافة إلى ذلك، يؤدي الافتراض القوي للإشراف ا
لبعيد إلى وجود جمل صاخبة في أكياس الجملة.في هذه الورقة، نقترح شبكة مراجعة متعددة الطبقات رواية (MLRN) التي تخفف من آثار ضوضاء مستوى الكلمات من خلال التأكيد على علاقات الجملة الداخلية قبل استخراج المعلومات ذات الصلة داخل الجمل.بعد ذلك، نركز طريقة تعليمية متعددة الاستخدامات متعددة الاستخدامات ومقاومة للضوضاء مقاومة للضوضاء لتصفية الجمل الصاخبة وكذلك تعيين الأوزان المناسبة إلى تلك ذات الصلة.تجارب واسعة على مجموعة بيانات اثنين نيويورك تايمز (NYT) تثبت أن نهجنا يحقق تحسينات كبيرة على الأساس.
تهدف تقدير الجودة (QE) من الترجمة الآلية (MT) إلى تقييم جودة الجمل التي ترجمتها الجهاز دون مراجع وهي مهمة في التطبيقات العملية ل MT.تتطلب Training Models QE بيانات موازية ضخمة بأشرفة توضيحية ذات جودة يدوية، وهي تستغرق وقتا طويلا ومكثفة العمالة للحصول
عليها.لمعالجة مسألة عدم وجود بيانات تدريب مشروح، تحاول الدراسات السابقة تطوير أساليب QE غير المدعومة.ومع ذلك، يمكن تطبيق عدد قليل جدا منهم على مهام QE على مستوى الجملة والطريق، وقد تعاني من الضوضاء في البيانات الاصطناعية.لتقليل الآثار السلبية للضوضاء، نقترح طريقة للإشراف ذاتي لكل من QE من كل من QE على مستوى الكلمة والطريق، والتي تنفذ تقدير الجودة من خلال استعادة الكلمات المستهدفة الملثمين.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الطرق السابقة غير الخاضعة للرقابة في العديد من مهام QE في أزواج ومجال بلغات مختلفة.
نقدم نتائج المهام المشتركة WMT2021 في MT غير المنضدة والموارد منخفضة للغاية.في هذه المهمة، درس المجتمع ترجمة الموارد المنخفضة جدا بين اللغة الألمانية والصربية العليا، والترجمة غير المنخفضة بين الترجمة من اللغة الألمانية والسوربية والمنخفضة الموارد بي
ن الروسية والجواد، وجميع لغات الأقليات مع المجتمعات اللغوية النشطة تعمل على الحفاظ على اللغات، والذين هم شركاء فيالتقييم.شكرا بذلك، تمكنا من الحصول على معظم البيانات الرقمية المتاحة لهذه اللغات وتقديمها للمشاركين في المهام.في المجموع، شارك ست فرق في المهمة المشتركة.تناقش الورقة الخلفية، وتعرض المهام والنتائج، ويناقش أفضل الممارسات للمستقبل.
يهدف توليد تقرير الأشعة إلى توليد النص الوصفي من صور الأشعة تلقائيا، مما قد يقدم فرصة لتحسين تقارير الأشعة وتفسيره.يتكون الإعداد النموذجي من نماذج ترميز ترميز التشفير التدريب على أزواج تقارير الصور مع فقدان الانتروبيا الصليب، والذي يكافح من أجل توليد
جمل إعلامية للتشخيصات السريرية لأن النتائج العادية تهيمن على مجموعات البيانات.لمعالجة هذا التحدي وتشجيع المزيد من مخرجات النص بدقة سريريا، نقترح رواية خسارة مضيعة للإشراف ضعيفا لتوليد التقرير الطبي.تظهر النتائج التجريبية أن أسلوبنا يستفيد من التقارير المستهدفة المتناقضة مع غير صحيحة ولكنها قريبة من القريبة.تتفوق على العمل السابق على كل من صحة سرية ومقاييس جيل النص إلى معايير عامة.
يعد إعادة صياغة نص إعادة صياغة مهمة NLP طويلة الأمد لديها تطبيقات متنوعة على مهام NLP المصب. ومع ذلك، تعتمد فعالية الجهود الحالية في الغالب على كميات كبيرة من البيانات الذهبية المسمى. على الرغم من أن المساعي غير الخاضعة للإشعال قد اقترحت تخفيف هذه ال
مسألة، إلا أنها قد تفشل في توليد صياغة هادفة بسبب عدم وجود إشارات الإشراف. في هذا العمل، نذهب إلى أبعد من النماذج الحالية واقتراح نهج رواية لتوليد صياغة عالية الجودة مع بيانات الإشراف الضعيف. على وجه التحديد، نتعامل مع مشكلة توليد إعادة صياغة الإشراف ضعيفا من خلال: (1) الحصول على جمل متوازية ضعيفة وفرة عن طريق توسيع إعادة صياغة الزائفة القائمة على استرجاع؛ و (2) تطوير إطار تعليمي التعلم إلى تحديد عينات قيمة تدريجيا لضبط النموذج اللغوي المدرب مسبقا في مهمة إعادة توجيهها مسبقا في مهمة إعادة الصياغة الخطية. نوضح أن نهجنا يحقق تحسينات كبيرة على النهج القائمة غير المدمرة، وهو ما يمكن قابلة للمقارنة في الأداء مع أحدث من الفنون المغلفة.
تلقت تلخيص محادثة مبادرة إيلاء اهتمام متزايد في حين تعتمد معظم نماذج تلخيص حديثة حديثة من بين الفنون بشدة على ملخصات المشروح بين الإنسان. للحد من الاعتماد على الملخصات المسمى، في هذا العمل، نقدم مجموعة بسيطة ولكنها فعالة من طرق تكبير بيانات المحادثة
(CODA) لعلمة محادثة إفراطية شبه إشراف، مثل تبادل / حذف عشوائي لإضطرب علاقات الخطاب داخل المحادثات، والحوار - الإدراج الموجه المرشد بمقاطعة تطوير المحادثات، والاستبدال القائم على الجيل الشرطي لاستبدال الكلام مع صياغةهم الناتجة بناء على سياق المحادثة. لمزيد من الاستفادة من المحادثات غير المستمرة، نجمع بين Coda مع التدريب الذاتي الصاخب على مرحلتين حيث نقوم أولا بتدريب نموذج التلخيص مسبقا على المحادثات غير المسبقة مع ملخصات زائفة، ثم ضبطها على المحادثات المسمى. توضح التجارب التي أجريت في مجموعات بيانات تلخيص المحادثة الأخيرة فعالية أساليبنا على العديد من خطوط خطوط تكبير البيانات في البيانات.
في استخراج العلاقة، يستخدم الإشراف البعيد على نطاق واسع لتسمية مجموعة بيانات تدريبية واسعة النطاق عن طريق محاذاة قاعدة المعرفة بالنص غير منظم. افترضت أن معظم الدراسات الموجودة في هذا المجال هناك قدر كبير من النص المركزي غير منظم. ومع ذلك، في الممارسة
العملية، يتم توزيع النصوص عادة على منصات مختلفة ولا يمكن أن تكون مركزية بسبب قيود الخصوصية. لذلك، من المفيد التحقيق في الإشراف البعيد في نموذج التعلم الفيدرالي، الذي يقوم بتشغيل النموذج من الحاجة إلى الوصول المباشر إلى النصوص الخام. ومع ذلك، يصبح التغلب على ضجيج الملصق للإشراف البعيد أكثر صعوبة في الإعدادات الفيدرالية، لأن النصوص التي تحتوي على نفس زوج الكيان مبعثر حول منصات مختلفة. في هذه الورقة، نقترح إطار دنيوي مخصص لإقناع الضوضاء التسمية في الإعدادات الفيدرالية. مفتاح هذا الإطار هو طريقة مستندة في حالة التعلم التي تعتمد على التعليم غير قادر على تحديد جمل موثوقة عبر التعاون عبر النظام الأساسي. تجارب مختلفة على بيانات DataSet New York Times و Mirna Gene Lination DataSet تثبت فعالية الطريقة المقترحة.