ترغب بنشر مسار تعليمي؟ اضغط هنا

تلقت تلخيص محادثة مبادرة إيلاء اهتمام متزايد في حين تعتمد معظم نماذج تلخيص حديثة حديثة من بين الفنون بشدة على ملخصات المشروح بين الإنسان. للحد من الاعتماد على الملخصات المسمى، في هذا العمل، نقدم مجموعة بسيطة ولكنها فعالة من طرق تكبير بيانات المحادثة (CODA) لعلمة محادثة إفراطية شبه إشراف، مثل تبادل / حذف عشوائي لإضطرب علاقات الخطاب داخل المحادثات، والحوار - الإدراج الموجه المرشد بمقاطعة تطوير المحادثات، والاستبدال القائم على الجيل الشرطي لاستبدال الكلام مع صياغةهم الناتجة بناء على سياق المحادثة. لمزيد من الاستفادة من المحادثات غير المستمرة، نجمع بين Coda مع التدريب الذاتي الصاخب على مرحلتين حيث نقوم أولا بتدريب نموذج التلخيص مسبقا على المحادثات غير المسبقة مع ملخصات زائفة، ثم ضبطها على المحادثات المسمى. توضح التجارب التي أجريت في مجموعات بيانات تلخيص المحادثة الأخيرة فعالية أساليبنا على العديد من خطوط خطوط تكبير البيانات في البيانات.
تهدف أساس التأريض اللغوي (TLG) إلى توطين شريحة فيديو في فيديو غير جذاب بناء على وصف لغة طبيعية. لتخفيف التكلفة الباهظة الثمن التوضيحية للشروح اليدوية لملصقات الحدود الزمنية، نحن مخصصة للإعداد الإشراف ضعيف، حيث يتم توفير أوصاف على مستوى الفيديو فقط لل تدريب. تولد معظم الأساليب الإشرافية الأكثر إشرافا ضعفا مجموعة شريحة مرشحة وتعلم محاذاة متعددة الوسائط من خلال إطار مستمد من MIL. ومع ذلك، يتم فقد الهيكل الزمني للفيديو وكذلك الدلالات المعقدة في الجملة أثناء التعلم. في هذا العمل، نقترح إطار رواية خالية من المرشحين: شبكة محاذاة الدلالات الدلالية الجميلة (FSAN)، ل TLG الإشراف ضعيف. بدلا من عرض الجملة واللحظات المرشحة ككل، يتعلم FSAN محاذاة الدلالات المسلقة عبر الأقراص من قبل وحدة التفاعل عبر مشروط تكرارية، وتولد خريطة محاذاة من الدلالات القابلة للتكنولوجيا الراقية، وتشغيل التأريض مباشرة على أعلى الخريطة. يتم إجراء تجارب واسعة على معايير اثنين واستخدامها على نطاق واسع: تعويضات ActivityNet، و Didemo، حيث تحقق FSAN لدينا أداء حديثة من بين الفن.
في استخراج العلاقة، يستخدم الإشراف البعيد على نطاق واسع لتسمية مجموعة بيانات تدريبية واسعة النطاق عن طريق محاذاة قاعدة المعرفة بالنص غير منظم. افترضت أن معظم الدراسات الموجودة في هذا المجال هناك قدر كبير من النص المركزي غير منظم. ومع ذلك، في الممارسة العملية، يتم توزيع النصوص عادة على منصات مختلفة ولا يمكن أن تكون مركزية بسبب قيود الخصوصية. لذلك، من المفيد التحقيق في الإشراف البعيد في نموذج التعلم الفيدرالي، الذي يقوم بتشغيل النموذج من الحاجة إلى الوصول المباشر إلى النصوص الخام. ومع ذلك، يصبح التغلب على ضجيج الملصق للإشراف البعيد أكثر صعوبة في الإعدادات الفيدرالية، لأن النصوص التي تحتوي على نفس زوج الكيان مبعثر حول منصات مختلفة. في هذه الورقة، نقترح إطار دنيوي مخصص لإقناع الضوضاء التسمية في الإعدادات الفيدرالية. مفتاح هذا الإطار هو طريقة مستندة في حالة التعلم التي تعتمد على التعليم غير قادر على تحديد جمل موثوقة عبر التعاون عبر النظام الأساسي. تجارب مختلفة على بيانات DataSet New York Times و Mirna Gene Lination DataSet تثبت فعالية الطريقة المقترحة.
استخراج العلاقات الإشراف على نطاق واسع يستخدم على نطاق واسع في بناء قواعد المعرفة بسبب كفاءته العالية.ومع ذلك، فإن الحالات التي تم الحصول عليها تلقائيا ذات جودة منخفضة مع العديد من الكلمات غير ذات الصلة.بالإضافة إلى ذلك، يؤدي الافتراض القوي للإشراف ا لبعيد إلى وجود جمل صاخبة في أكياس الجملة.في هذه الورقة، نقترح شبكة مراجعة متعددة الطبقات رواية (MLRN) التي تخفف من آثار ضوضاء مستوى الكلمات من خلال التأكيد على علاقات الجملة الداخلية قبل استخراج المعلومات ذات الصلة داخل الجمل.بعد ذلك، نركز طريقة تعليمية متعددة الاستخدامات متعددة الاستخدامات ومقاومة للضوضاء مقاومة للضوضاء لتصفية الجمل الصاخبة وكذلك تعيين الأوزان المناسبة إلى تلك ذات الصلة.تجارب واسعة على مجموعة بيانات اثنين نيويورك تايمز (NYT) تثبت أن نهجنا يحقق تحسينات كبيرة على الأساس.
في هذه الورقة، نقدم النظم المقدمة من فريقنا من معهد تكنولوجيا المعلومات والاتصالات (HIGH-VD / HES-SO) إلى مهمة MT غير الخاضعة للرقابة والموارد منخفضة للغاية.ندرس أولا التحسينات التي جلبت إلى نظام أساسي من خلال تقنيات مثل الترجمة الخلفي والتهيئة من نم وذج الوالدين.نجد أن كلتا التقنيتين مفيدة وكافية للوصول إلى الأداء الذي يقارن مع أنظمة أكثر تطورا من مهمة 2020.بعد ذلك، نقدم تطبيق هذا النظام إلى مهمة 2021 للمزيد من الأغراض السربية العلوي تحت الإشراف (HSB) إلى الترجمة الألمانية، في كلا الاتجاهين.أخيرا، نقدم نظاما نظعا ل HSB-DE في كلا الاتجاهين، وللترجمة الألمانية غير الخاضعة للرقابة إلى أسفل ترجمة Sorbian (DSB)، والتي تستخدم التدريب المتعدد المهام مع مختلف جداول التدريب لتحسين الخط الأساسي.
تصف هذه الورقة نظام Noahnmt المقدم إلى المهمة المشتركة WMT 2021 الخاصة بترجمة آلية منخفضة للغاية للإشراف على الموارد.النظام هو نموذج محول قياسي مزود بتقنية نقلنا الحديثة.كما توظف التقنيات المستخدمة على نطاق واسع من المعروف أنها مفيدة للترجمة الآلية ا لعصبية، بما في ذلك الترجمة الترجمة الإلكترونية التكرارية، والصلفة المختارة، والوقت.يقدم التقديم النهائي أعلى بلو لثلاثة اتجاهات ترجمة.
نقدم نهجا جديدا محاطا جديدا موجه للنمذجة اللغوية متعددة الوثائق، حيث تتضمن أفكيرا رئيسيتين في النمذجة اللغوية المشنقة بالهدف الإشراف على الذات.أولا، بدلا من النظر في الوثائق في العزلة، نحن نتفق مع مجموعات من المستندات المتعددة المتعددة، تشجيع النموذج على تعلم العلاقات عبر الوثائق.ثانيا، نحسن أكثر من المحولات الطويلة المدى حديثا عن طريق إدخال اهتمام عالمي ديناميكي يتمكن من الوصول إلى الإدخال بأكمله للتنبؤ بالرموز الملثم.نقوم بإصدار CDLM (نموذج اللغة عبر المستندات)، وهو نموذج لغة عام جديد لإعداد متعدد الوثائق يمكن تطبيقه بسهولة على مهام المصب.يوضح تحليلنا الواسع أن كلا الأفكار ضرورية لنجاح CDLM، والعمل في تآزر لتعيين نتائج جديدة من الفنون الجديدة لعدة مهام متعددة النص.
يهدف توليد تقرير الأشعة إلى توليد النص الوصفي من صور الأشعة تلقائيا، مما قد يقدم فرصة لتحسين تقارير الأشعة وتفسيره.يتكون الإعداد النموذجي من نماذج ترميز ترميز التشفير التدريب على أزواج تقارير الصور مع فقدان الانتروبيا الصليب، والذي يكافح من أجل توليد جمل إعلامية للتشخيصات السريرية لأن النتائج العادية تهيمن على مجموعات البيانات.لمعالجة هذا التحدي وتشجيع المزيد من مخرجات النص بدقة سريريا، نقترح رواية خسارة مضيعة للإشراف ضعيفا لتوليد التقرير الطبي.تظهر النتائج التجريبية أن أسلوبنا يستفيد من التقارير المستهدفة المتناقضة مع غير صحيحة ولكنها قريبة من القريبة.تتفوق على العمل السابق على كل من صحة سرية ومقاييس جيل النص إلى معايير عامة.
يقلل اعتراف الكيان المسمى بشكل مسمى (DS-NER) بكفاءة تكاليف العمالة بل في الوقت نفسه يعاني من ضوضاء الملصقات بسبب الافتراض القوي للإشراف البعيد.عادة ما تشتمل الحالات المسماة بشكل خاطئ على أرقام التعليقات التوضيحية غير المكتملة وغير الدقيقة، في حين أن معظم أعمال Denoising السابقة تشعر بالقلق فقط بنوع من الضوضاء وتفشل في استكشاف معلومات مفيدة بالكامل في مجموعة التدريب.لمعالجة هذه المشكلة، نقترح نماذج تعليمية قوية تسمى التعلم التعاوني الذاتي التعاونية (SCDL)، والتي تدرب بشاشات اثنين من شبكات الطلاب المعلمين بطريقة منفعة متبادلة لتنفيذ مصفاة التسمية الصاخبة بشكل متكرر.تم تصميم كل شبكة لاستغلال ملصقات موثوقة عبر Denoising الذاتي، ويتواصل شبكتان مع بعضهما البعض لاستكشاف التعليقات التوضيحية غير الموثوق بها من خلال تنظيم تعاوني.نتائج تجريبية واسعة النطاق على خمسة مجموعات بيانات حقيقية عالمية توضح أن SCDL متفوقة على طرق DS-NER DENOSION حول DS-NER.
نماذج الموضوعات هي أدوات مفيدة لتحليل وتفسير المواضيع الأساسية الرئيسية للنص الكبير.تعتمد معظم نماذج الموضوعات على حدوث كلمة Word لحساب موضوع، أي مجموعة مرجحة من الكلمات التي تمثل معا مفهوم دلالي رفيع المستوى.في هذه الورقة، نقترح نموذجا جديدا جديدا م ختلفا عن الخفيفة الوزن في الوزن (SNTM) يتعلم سياق غني من خلال تعلم تمثيل موضوعي بالاشتراك من ثلاثة كلمات مشتركة وثيقة تنشأ ثلاثية.تشير نتائجنا التجريبية إلى أن نموذج الموضوع العصبي المقترح لدينا، SNTM، يتفوق على نماذج الموضوعات الموجودة سابقا في مقاييس الاتساق بالإضافة إلى دقة تجميع المستندات.علاوة على ذلك، بصرف النظر عن تماسك الموضوع وأداء التجميع، فإن طراز الموضوع العصبي المقترح لديه عدد من المزايا، وهي، كونها فعالة بشكل حسابي وسهل التدريب.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا