ترغب بنشر مسار تعليمي؟ اضغط هنا

تلقت تلخيص محادثة مبادرة إيلاء اهتمام متزايد في حين تعتمد معظم نماذج تلخيص حديثة حديثة من بين الفنون بشدة على ملخصات المشروح بين الإنسان. للحد من الاعتماد على الملخصات المسمى، في هذا العمل، نقدم مجموعة بسيطة ولكنها فعالة من طرق تكبير بيانات المحادثة (CODA) لعلمة محادثة إفراطية شبه إشراف، مثل تبادل / حذف عشوائي لإضطرب علاقات الخطاب داخل المحادثات، والحوار - الإدراج الموجه المرشد بمقاطعة تطوير المحادثات، والاستبدال القائم على الجيل الشرطي لاستبدال الكلام مع صياغةهم الناتجة بناء على سياق المحادثة. لمزيد من الاستفادة من المحادثات غير المستمرة، نجمع بين Coda مع التدريب الذاتي الصاخب على مرحلتين حيث نقوم أولا بتدريب نموذج التلخيص مسبقا على المحادثات غير المسبقة مع ملخصات زائفة، ثم ضبطها على المحادثات المسمى. توضح التجارب التي أجريت في مجموعات بيانات تلخيص المحادثة الأخيرة فعالية أساليبنا على العديد من خطوط خطوط تكبير البيانات في البيانات.
تهدف أساس التأريض اللغوي (TLG) إلى توطين شريحة فيديو في فيديو غير جذاب بناء على وصف لغة طبيعية. لتخفيف التكلفة الباهظة الثمن التوضيحية للشروح اليدوية لملصقات الحدود الزمنية، نحن مخصصة للإعداد الإشراف ضعيف، حيث يتم توفير أوصاف على مستوى الفيديو فقط لل تدريب. تولد معظم الأساليب الإشرافية الأكثر إشرافا ضعفا مجموعة شريحة مرشحة وتعلم محاذاة متعددة الوسائط من خلال إطار مستمد من MIL. ومع ذلك، يتم فقد الهيكل الزمني للفيديو وكذلك الدلالات المعقدة في الجملة أثناء التعلم. في هذا العمل، نقترح إطار رواية خالية من المرشحين: شبكة محاذاة الدلالات الدلالية الجميلة (FSAN)، ل TLG الإشراف ضعيف. بدلا من عرض الجملة واللحظات المرشحة ككل، يتعلم FSAN محاذاة الدلالات المسلقة عبر الأقراص من قبل وحدة التفاعل عبر مشروط تكرارية، وتولد خريطة محاذاة من الدلالات القابلة للتكنولوجيا الراقية، وتشغيل التأريض مباشرة على أعلى الخريطة. يتم إجراء تجارب واسعة على معايير اثنين واستخدامها على نطاق واسع: تعويضات ActivityNet، و Didemo، حيث تحقق FSAN لدينا أداء حديثة من بين الفن.
في استخراج العلاقة، يستخدم الإشراف البعيد على نطاق واسع لتسمية مجموعة بيانات تدريبية واسعة النطاق عن طريق محاذاة قاعدة المعرفة بالنص غير منظم. افترضت أن معظم الدراسات الموجودة في هذا المجال هناك قدر كبير من النص المركزي غير منظم. ومع ذلك، في الممارسة العملية، يتم توزيع النصوص عادة على منصات مختلفة ولا يمكن أن تكون مركزية بسبب قيود الخصوصية. لذلك، من المفيد التحقيق في الإشراف البعيد في نموذج التعلم الفيدرالي، الذي يقوم بتشغيل النموذج من الحاجة إلى الوصول المباشر إلى النصوص الخام. ومع ذلك، يصبح التغلب على ضجيج الملصق للإشراف البعيد أكثر صعوبة في الإعدادات الفيدرالية، لأن النصوص التي تحتوي على نفس زوج الكيان مبعثر حول منصات مختلفة. في هذه الورقة، نقترح إطار دنيوي مخصص لإقناع الضوضاء التسمية في الإعدادات الفيدرالية. مفتاح هذا الإطار هو طريقة مستندة في حالة التعلم التي تعتمد على التعليم غير قادر على تحديد جمل موثوقة عبر التعاون عبر النظام الأساسي. تجارب مختلفة على بيانات DataSet New York Times و Mirna Gene Lination DataSet تثبت فعالية الطريقة المقترحة.
نقدم نتائج المهام المشتركة WMT2021 في MT غير المنضدة والموارد منخفضة للغاية.في هذه المهمة، درس المجتمع ترجمة الموارد المنخفضة جدا بين اللغة الألمانية والصربية العليا، والترجمة غير المنخفضة بين الترجمة من اللغة الألمانية والسوربية والمنخفضة الموارد بي ن الروسية والجواد، وجميع لغات الأقليات مع المجتمعات اللغوية النشطة تعمل على الحفاظ على اللغات، والذين هم شركاء فيالتقييم.شكرا بذلك، تمكنا من الحصول على معظم البيانات الرقمية المتاحة لهذه اللغات وتقديمها للمشاركين في المهام.في المجموع، شارك ست فرق في المهمة المشتركة.تناقش الورقة الخلفية، وتعرض المهام والنتائج، ويناقش أفضل الممارسات للمستقبل.
استخراج العلاقات الإشراف على نطاق واسع يستخدم على نطاق واسع في بناء قواعد المعرفة بسبب كفاءته العالية.ومع ذلك، فإن الحالات التي تم الحصول عليها تلقائيا ذات جودة منخفضة مع العديد من الكلمات غير ذات الصلة.بالإضافة إلى ذلك، يؤدي الافتراض القوي للإشراف ا لبعيد إلى وجود جمل صاخبة في أكياس الجملة.في هذه الورقة، نقترح شبكة مراجعة متعددة الطبقات رواية (MLRN) التي تخفف من آثار ضوضاء مستوى الكلمات من خلال التأكيد على علاقات الجملة الداخلية قبل استخراج المعلومات ذات الصلة داخل الجمل.بعد ذلك، نركز طريقة تعليمية متعددة الاستخدامات متعددة الاستخدامات ومقاومة للضوضاء مقاومة للضوضاء لتصفية الجمل الصاخبة وكذلك تعيين الأوزان المناسبة إلى تلك ذات الصلة.تجارب واسعة على مجموعة بيانات اثنين نيويورك تايمز (NYT) تثبت أن نهجنا يحقق تحسينات كبيرة على الأساس.
في هذه الورقة، نقدم النظم المقدمة من فريقنا من معهد تكنولوجيا المعلومات والاتصالات (HIGH-VD / HES-SO) إلى مهمة MT غير الخاضعة للرقابة والموارد منخفضة للغاية.ندرس أولا التحسينات التي جلبت إلى نظام أساسي من خلال تقنيات مثل الترجمة الخلفي والتهيئة من نم وذج الوالدين.نجد أن كلتا التقنيتين مفيدة وكافية للوصول إلى الأداء الذي يقارن مع أنظمة أكثر تطورا من مهمة 2020.بعد ذلك، نقدم تطبيق هذا النظام إلى مهمة 2021 للمزيد من الأغراض السربية العلوي تحت الإشراف (HSB) إلى الترجمة الألمانية، في كلا الاتجاهين.أخيرا، نقدم نظاما نظعا ل HSB-DE في كلا الاتجاهين، وللترجمة الألمانية غير الخاضعة للرقابة إلى أسفل ترجمة Sorbian (DSB)، والتي تستخدم التدريب المتعدد المهام مع مختلف جداول التدريب لتحسين الخط الأساسي.
تصف هذه الورقة نظام Noahnmt المقدم إلى المهمة المشتركة WMT 2021 الخاصة بترجمة آلية منخفضة للغاية للإشراف على الموارد.النظام هو نموذج محول قياسي مزود بتقنية نقلنا الحديثة.كما توظف التقنيات المستخدمة على نطاق واسع من المعروف أنها مفيدة للترجمة الآلية ا لعصبية، بما في ذلك الترجمة الترجمة الإلكترونية التكرارية، والصلفة المختارة، والوقت.يقدم التقديم النهائي أعلى بلو لثلاثة اتجاهات ترجمة.
تهدف تقدير الجودة (QE) من الترجمة الآلية (MT) إلى تقييم جودة الجمل التي ترجمتها الجهاز دون مراجع وهي مهمة في التطبيقات العملية ل MT.تتطلب Training Models QE بيانات موازية ضخمة بأشرفة توضيحية ذات جودة يدوية، وهي تستغرق وقتا طويلا ومكثفة العمالة للحصول عليها.لمعالجة مسألة عدم وجود بيانات تدريب مشروح، تحاول الدراسات السابقة تطوير أساليب QE غير المدعومة.ومع ذلك، يمكن تطبيق عدد قليل جدا منهم على مهام QE على مستوى الجملة والطريق، وقد تعاني من الضوضاء في البيانات الاصطناعية.لتقليل الآثار السلبية للضوضاء، نقترح طريقة للإشراف ذاتي لكل من QE من كل من QE على مستوى الكلمة والطريق، والتي تنفذ تقدير الجودة من خلال استعادة الكلمات المستهدفة الملثمين.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الطرق السابقة غير الخاضعة للرقابة في العديد من مهام QE في أزواج ومجال بلغات مختلفة.
نقدم نهجا جديدا محاطا جديدا موجه للنمذجة اللغوية متعددة الوثائق، حيث تتضمن أفكيرا رئيسيتين في النمذجة اللغوية المشنقة بالهدف الإشراف على الذات.أولا، بدلا من النظر في الوثائق في العزلة، نحن نتفق مع مجموعات من المستندات المتعددة المتعددة، تشجيع النموذج على تعلم العلاقات عبر الوثائق.ثانيا، نحسن أكثر من المحولات الطويلة المدى حديثا عن طريق إدخال اهتمام عالمي ديناميكي يتمكن من الوصول إلى الإدخال بأكمله للتنبؤ بالرموز الملثم.نقوم بإصدار CDLM (نموذج اللغة عبر المستندات)، وهو نموذج لغة عام جديد لإعداد متعدد الوثائق يمكن تطبيقه بسهولة على مهام المصب.يوضح تحليلنا الواسع أن كلا الأفكار ضرورية لنجاح CDLM، والعمل في تآزر لتعيين نتائج جديدة من الفنون الجديدة لعدة مهام متعددة النص.
يهدف توليد تقرير الأشعة إلى توليد النص الوصفي من صور الأشعة تلقائيا، مما قد يقدم فرصة لتحسين تقارير الأشعة وتفسيره.يتكون الإعداد النموذجي من نماذج ترميز ترميز التشفير التدريب على أزواج تقارير الصور مع فقدان الانتروبيا الصليب، والذي يكافح من أجل توليد جمل إعلامية للتشخيصات السريرية لأن النتائج العادية تهيمن على مجموعات البيانات.لمعالجة هذا التحدي وتشجيع المزيد من مخرجات النص بدقة سريريا، نقترح رواية خسارة مضيعة للإشراف ضعيفا لتوليد التقرير الطبي.تظهر النتائج التجريبية أن أسلوبنا يستفيد من التقارير المستهدفة المتناقضة مع غير صحيحة ولكنها قريبة من القريبة.تتفوق على العمل السابق على كل من صحة سرية ومقاييس جيل النص إلى معايير عامة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا