مع الوفاء المتزايد من نصوص الاجتماعات، اجتذبت ملخص الاجتماع المزيد والمزيد من الاهتمام من الباحثين. حققت طريقة التدريب المسبق غير المعروضة على أساس هيكل المحولات المبلغة مع ضبط المهام المصب الناجمة نجاحا كبيرا في مجال تلخيص النص. ومع ذلك، فإن الهيكل
الدلالي وأسلوب حقول الاجتماع يختلف تماما عن مقالات. في هذا العمل، نقترح شبكة فك ترميز ترميز ترميز هيرسلجية ذات مهام مسبقة مهام متعددة. على وجه التحديد، نحن نخفي الجمل الرئيسية في تشفير مستوى الكلمات وتوليدها في وحدة فك الترميز. علاوة على ذلك، نقع بشكل عشوائي بعض محاذاة الدور في نص الإدخال وإجبار النموذج على استعادة علامات الدور الأصلية لإكمال المحاذاة. بالإضافة إلى ذلك، نقدم آلية تجزئة موضوعا لمواصلة تحسين جودة الملخصات التي تم إنشاؤها. تظهر النتائج التجريبية أن طرازنا متفوق على الأساليب السابقة في مجموعات بيانات ملخص الاجتماع AMI و ICSI.
لقد أثبتت التعلم المناهج الدراسية، وهي استراتيجية تدريب الآلة التي تغذي حالات التدريب على النموذج من سهولة الصعب، لتسهيل مهمة توليد الحوار. وفي الوقت نفسه، يمكن أن تسفر عن طريقة تقطير المعرفة، منهجية تحويل المعرفة بين المعلمين وشبكات الطلاب دفعة كبير
ة من الأداء لنماذج الطلاب. وبالتالي، في هذه الورقة، نقدم مجموعة من التعلم من المناهج الدراسية وتقطير المعرفة لنماذج جيل الحوار الفعالة، حيث يمكن أن يساعد تعلم المناهج الدراسية في تقطير المعارف من جوانب البيانات والنموذج. للبدء، من جانب البيانات، نقوم بتجميع حالات التدريب وفقا لتعقيدها، والتي تحسبها أنواع مختلفة من الميزات مثل طول الجملة والتماسك بين أزواج الحوار. علاوة على ذلك، فإننا نوظف استراتيجية تدريبية عدائية لتحديد تعقيد الحالات من مستوى النموذج. الحدس هو أنه، إذا كان بإمكان التمييز أن يخبر الاستجابة الناتجة عن المعلم أو الطالب، فسيكون الأمر من الصعب على الحالة أن نموذج الطالب لم يتكيف حتى الآن. أخيرا، نستخدم التعلم الذاتي، وهو امتداد لتعلم المناهج الدراسية لتعيين الأوزان لتقطير. في الختام، نقوم بترتيب منهج هرمي يستند إلى الجوانب المذكورة أعلاه لنموذج الطالب بموجب الإرشاد من نموذج المعلم. توضح النتائج التجريبية أن أساليبنا تحقق تحسينات مقارنة مع خطوط الأساس التنافسية.
عثرت نمذجة اللغة الإحصائية والترجمة مع المحولات العديد من التطبيقات الناجحة في فهم البرنامج ومهام الجيل، وتحديد معايير عالية للأدوات في بيئات تطوير البرمجيات الحديثة. ومع ذلك، فإن نافذة السياق المحدودة لهذه النماذج العصبية تعني أنهم لن يكونوا غير قاد
رين على الاستفادة من السياق الكامل بأكمله من الملفات والحزم الكبيرة لأي مهمة معينة. في حين أن هناك العديد من الجهود المبذولة لتوسيع نافذة السياق، فإننا نقدم نهجا مستقلا بالهندسة المعمارية للاستفادة من التسلسلات الهيدروجسية النحوية من التعليمات البرمجية المصدرية لإدماج سياق كامل مستوى الملف في نافذة ذات طول ثابت. باستخدام أشجار بناء جملة الخرسانة من كل ملف مصدر نستخرج التسلسلات الهرمية النحوية ودمجها في نافذة السياق عن طريق إزالة بشكل انتقائي من عرض نطاقات أكثر تحديدا وأقل أهمية لمهمة معينة. نقوم بتقييم هذا النهج على مهام توليد التعليمات البرمجية والترجمة المشتركة للغة الطبيعية ومزدئة المصدر في لغة البرمجة الثابتة، وتحقيق حالة جديدة من بين الفن في إكمال التعليمات البرمجية وتلخيص Python في معيار Codexglue. نقدم أيضا معايير CodexGlue جديدة للمهام الدوافع المتعلقة بتجربة المستخدمين: إكمال التعليمات البرمجية مع الحرفيات الطبيعية، طريقة إتمام الأسلوب / تلخيص / رمز رمز مكيف في سياق مستوى الملفات.
أثار العمل الحديث مخاوف بشأن القيود المتأصلة للاحتجاج بالنص. في هذه الورقة، نوضح أولا أن الإبلاغ عن التحيز، ميل لا يذكر أن الواضح، هو أحد أسباب هذا القيد، ثم التحقيق في أي مدى يمكن للتدريب المتعدد الوسائط تخفيف هذه المشكلة. لإنجاز هذا، نحن 1) إنشاء م
جموعة بيانات اللون (CODA)، مجموعة بيانات من توزيعات الألوان التي طالبي الإنسان 521 كائنات مشتركة؛ 2) استخدم Coda لتحليل ومقارنة توزيع الألوان الموجود في النص، والتوزيع الذي تم التقاطه بواسطة نماذج اللغة، وتصور الإنسان للون؛ و 3) التحقيق في اختلافات الأداء بين النماذج النصية فقط والنماذج متعددة الوسائط على CODA. تظهر نتائجنا أن توزيع الألوان التي يتعافها نموذج اللغة تعاد ترتبط بقوة أكبر بتوزيع غير دقيق موجود في نصا أكثر من الحقيقة الأرضية، مما يدعم الادعاء بأن الإبلاغ عن التحيز يؤثر سلبا على تدريب سلبي ويحد تدريبا بطبيعته على التدريب فقط. ثم نوضح أن النماذج متعددة الوسائط يمكن أن تستفيد من التدريب البصري لتخفيف هذه الآثار، مما يوفر وسيلة واعدة للبحث في المستقبل.
تتحمل الأساليب الحالية لإدماج قيود المصطلحات في الترجمة الآلية (MT) عادة أن شرط القيد يتم توفيرها في أشكالهم المورفولوجية الصحيحة. هذا يحد من تطبيقه إلى سيناريوهات العالم الحقيقي حيث يتم توفير شروط القيد كمولماس. في هذه الورقة، نقدم إطارا وحدات لإدما
ج قيود Lemma في MT العصبية (NMT) التي يمكن فيها تطبيق المعرفة اللغوية وأنواع متنوعة من نماذج NMT بشكل مرني. يعتمد ذلك على وحدة انعطاف عبر اللغات الرواية التي تلحق قيود LEMMA المستهدفة بناء على سياق المصدر. نستكشف وحدات الانقسام العصبية المستندة إلى القواعد ذات الدوافع التي تعتمد على القواعد ومقرها إلى البيانات وتصميم أجنحة اختبار الصحة باللغة الإنجليزية والألمانية والأخبار الإنجليزية - الليتوانية لتقييمها في تكييف المجال وإعدادات MT منخفضة الموارد. تشير النتائج إلى أن وحدة الانعكاسات التي تعتمد على قواعدنا تساعد نماذج NMT على دمج قيود LEMMA بشكل أكثر دقة من الوحدة العصبية وتتفوق على النهج الحالي للنهائي مع انخفاض تكاليف التدريب.
تقدم هذه الورقة StoryDB --- مجموعة بيانات واسعة متعددة اللغات من الروايات.StoryDB هي جثة من النصوص التي تضم قصص في 42 لغة مختلفة.تتضمن كل لغة 500+ قصص.تشمل بعض اللغات أكثر من 20 ألف قصة.يتم فهرسة كل قصة عبر اللغات والمسمى مع العلامات مثل النوع أو الم
وضوع.يعرض Corpus تباين موضعي ولغوي غني ويمكن أن يكون بمثابة مورد لدراسة دور السرد في معالجة اللغة الطبيعية في مختلف اللغات بما في ذلك الموارد المنخفضة.نوضح أيضا كيف يمكن استخدام مجموعة البيانات لقياس ثلاث نماذج متعددة اللغات الحديثة، وهي mdistillbert و mbert و xlm-roberta.
أثبتت أساليب التنظيم القائم على الاستيفاء أن تكون فعالة لمختلف المهام والطرائق.Mixup هي طريقة تكبير البيانات تقوم بإنشاء عينات تدريب افتراضية من مجموعات محدبة للمدخلات والملصقات الفردية.نقوم بتوسيع مزيج واقتراح DMIX، خلط الإستقرار المسؤولي مقيد لتصني
ف الجملة يستفيد مساحة القطعي.يحقق DMIX أحدث النتائج في تصنيف الجملة على أساليب تكبير البيانات الحالية عبر مجموعات البيانات بأربع لغات.
في هذه الورقة، نقدم مهمة تنبؤ إشارة التحالف السياسي من النص، أي مهمة الاعتراف عن التغطية الإخبارية التي سبقت الانتخابات (الأمم المتحدة) استعداد الأحزاب السياسية لتشكيل ائتلاف حكومي.نحل مشكلتنا إلى مهمتين ذي صلة، ولكنها متبقية: (1) توقع ما إذا كان الب
يان المبلغ عنه من سياسي أو صحفي يشير إلى تحالف محتمل و (2) يتوقع قطبية الإشارة - أي ما إذا كان المتكلم فيصالح أو ضد الائتلاف.بالنسبة لهذا، نستكشف فوائد التعلم المتعدد المهام والتحقيق في ما هو الأنسب من الإعداد وصياغة المهمة لكل مهمة فرعية.نقيم نهجنا، بناء على مقالات جريدة مشفرة باليد، تغطي الانتخابات في ثلاث دول (أيرلندا وألمانيا والنمسا) ولغتين (الإنجليزية والألمانية).تظهر نتائجنا أن نهج التعلم متعدد المهام يمكن أن يؤدي إلى تحسين النتائج على خط أساسي قوي في مجال تحويل التحويل الأحادي.
اكتسبت الترجمة الآلية المتزامنة الجر مؤخرا، بفضل تحسينات الجودة المهمة ومختام تطبيقات البث.تحتاج أنظمة الترجمة المتزامنة إلى إيجاد مفاضلة بين جودة الترجمة ووقت الاستجابة، وبالتالي تم اقتراح تدابير الكمون المتعددة.ومع ذلك، يتم تقدير تقييمات الكمون للت
رجمة الفورية على مستوى الجملة، ولا تأخذ في الاعتبار الطبيعة المتسلسلة لسيناريو البث.في الواقع، هذه تدابير الكمون على مستوى الجملة ليست مناسبة تماما للترجمة المستمرة، مما أدى إلى وجود أرقام غير متماسكة مع سياسة الترجمة المتزامنة للنظام التي يتم تقييمها.يقترح هذا العمل تكيف مستوى دفق من تدابير الكمون الحالية بناء على نهج إعادة تجزئة مطبق على ترجمة الناتج، والتي يتم تقييمها بنجاح على شروط البث لمهمة الإشارة IWSLT.
Semeval هو المكان الرئيسي في مجتمع NLP لاقتراح التحديات الجديدة والتقييم التجريبي المنهجي لأنظمة NLP.توفر هذه الورقة تحليلا قياسيا منهيا لسيميفال تهدف إلى الأدلة على أنماط المساهمات وراء Semeval.من خلال فهم توزيع أنواع المهام والمقاييس والبنية والمشا
ركة والاقتباسات مع مرور الوقت نهدف إلى الإجابة على السؤال حول ما يجري تقييمه من قبل Semeval.