غالبا ما يكون اختلاف الفرد في أسلوب الكتابة وظيفة من السمات الاجتماعية والشخصية. في حين أن التباين الاجتماعي المنظم قد درس على نطاق واسع، مثل التباين القائم على النوع الاجتماعي، فإن أقل بكثير معروف حول كيفية وصف الأساليب الفردية بسبب طبيعتها الخصوصية
. نقدم نهجا جديدا لدراسة idiolects من خلال مقارنة هائلة للمؤلف عبر المؤلف لتحديد وترميز الميزات الأسلوبية. يحقق النموذج العصبي الأداء القوي في تحديد التأليف على النصوص القصيرة ومن خلال مهمة التحقيق القائم على التشبيه، يظهر أن التمثيلات المستفادة تظهر منتديات مفاجئة ترميز التحولات النوعية والكمية من الأساليب القطرية. من خلال اضطراب النص، نحدد المساهمات النسبية للعناصر اللغوية المختلفة على التباين الاضطراب. علاوة على ذلك، فإننا نقدم وصفا ل idiolects من خلال قياس الاختلاف بين المؤلفين و interra، مما يدل على أن الاختلاف في idiolects غالبا ما يكون مميزا بعد متسقة.
تم إظهار نماذج الإجابة على الأسئلة (QA) للحصول على فهم القراءة لاستغلال تحيزات محددات غير مقصودة مثل السؤال - التداخل المعجمي السياق. هذا يعيق نماذج ضمان الجودة من المعمم إلى العينات الممثلة تمثيلا مثل الأسئلة ذات التداخل المعجمي المنخفض. يمكن أن يكو
ن جيل السؤال (QG)، وهي طريقة لتعزيز مجموعات بيانات QA، حل تدهور الأداء إذا كان QG يمكن أن Debias QA بشكل صحيح. ومع ذلك، نكتشف أن نماذج QG العصبية الأخيرة متحيزة نحو توليد الأسئلة ذات التداخل المعجمي العالي، والتي يمكن أن تضخيم تحيز DataSet. علاوة على ذلك، يكشف تحليلنا أن تكبير البيانات مع نماذج QG هذه تضعف بشكل متكرر الأداء على الأسئلة مع التداخل المعجمي المنخفض، مع تحسين ذلك على الأسئلة ذات التداخل المعجمي العالي. لمعالجة هذه المشكلة، نستخدم نهج مرادف يستند إلى استبدال أسئلة زيادة التداخل المعجمي المنخفض. نوضح أن نهج تكبير البيانات المقترح بسيط ولكنه فعال في التخفيف من مشكلة التدهور مع الأمثلة الاصطناعية 70K فقط.
مع جزء المقالات من شبكة Corpus الدولية للمتعلمين الآسيويين في اللغة الإنجليزية (ICNALE) و TOEFL11 Corpus، نحن نطاقات نماذج اللغة العصبية التي تم ضبطها على أساس بيرت للتنبؤ باللغات الأصلية للمتعلمين باللغة الإنجليزية.أظهرت النتائج أن النماذج العصبية ي
مكن أن تتعلم أن تمثل واكتشاف آثار اللغة الأم مثل هذه النماذج المحلية، ولكن النماذج المدربة متعددة اللغات ليس لديها أي ميزة في القيام بذلك.
وقد تبين أن الكثير من التقدم الأخير في NLU كان بسبب الاستدلال الخاصة بمواد بيانات التعلم من النماذج.نقوم بإجراء دراسة حالة للتعميم في NLI (من MNLI إلى مجموعة بيانات Hans التي شيدت عدسي) في مجموعة من الهيغات القائمة على Bert (محولات ومحولات سيامي و De
viasing Hex)، وكذلك مع إعانة البيانات وزيادة حجم النموذج.نبلغ 2 استراتيجيات ناجحة و 3 غير ناجحة، وكلها توفر رؤى في كيفية تعلم النماذج القائمة على المحولات التعميم.
تقدم هذه الورقة نتائج المهمة المشتركة للمقاييس WMT21. طلب من المشاركين تسجيل مخرجات أنظمة الترجمة المتنافسة في مهمة الترجمة الأخبار WMT21 مع مقاييس أوتوماتيكية على مجطتين مختلفتين: أخبار ومحادثات تيد. تم تقييم جميع المقاييس على مدى ارتباطها على مستوى
النظام والقطاع مع التصنيفات البشرية. على عكس إصدارات السنوات السابقة، فقد استحوذنا هذا العام على تصنيفاتنا الإنسانية الخاصة بنا على أساس التقييم البشري القائم على الخبراء عبر مقاييس الجودة متعددة الأبعاد (MQM). يحتوي هذا الإعداد على العديد من المزايا: (1) قد أظهر التقييم القائم على الخبراء أنه أكثر موثوقية، (2) تمكنا من تقييم جميع المقاييس على مجاليين مختلفين باستخدام ترجمات نفس أنظمة MT، (III) أضفنا 5 إضافية الترجمات القادمة من نفس النظام أثناء تطوير النظام. بالإضافة إلى ذلك، صممنا ثلاث مجموعات تحدي تقيم متانة جميع المقاييس التلقائية. نقدم تحليلا مكثفا حول مدى أداء المقاييس على أزواج ثلاث لغات: الإنجليزية إلى الألمانية والإنجليزية إلى الروسية والصينية إلى الإنجليزية. نوضح تأثير الترجمات المرجعية المختلفة على المقاييس المستندة إلى المرجع ومقارنة شرح MQM القائم على الخبراء مع درجات DA المكتسبة بواسطة WMT.
معظم أساليب تلخيص المستندات النسخة الاستخراجية الحالية (MDS) تسجل كل جملة بشكل فردي واستخراج الجمل الباردة واحدا تلو الآخر لتكوين ملخص، ولديه عاطفي رئيسيين: (1) إهمال العلاقات داخل الوثائق بين الجمل؛ (2) إهمال التماسك وجواء الملخص بأكمله. في هذه الور
قة، نقترح إطار عمل MDS الرواية (SGSUM) لصياغة مهمة MDS كأداة اختيار Sub-Graph، حيث تعتبر المستندات المصدر بيانيا العلاقة من الجمل (على سبيل المثال، الرسم البياني التشابه أو الرسم البياني الخطابي) والمرشح الملخصات هي الرسوم البيانية الفرعية لها. بدلا من اختيار الجمل البارزة، حدد SGSUM رسم بياني فرعي بارز من الرسم البياني العلاقة كملخص. مقارنة بالطرق التقليدية، فإن طريقةنا لها مزايا رئيسية: (1) يتم التقاط العلاقات بين الأحكام من خلال نمذجة كل من هيكل الرسم البياني لمجموعة الوثيقة بأكملها والرسوم البيانية الفرعية المرشحة؛ (2) يخرج مباشرة ملخصا دمج في شكل رسم بياني فرعي وهو أكثر إفادة وتماسك. تظهر تجارب واسعة على مجموعات بيانات متعددة الوظائف و DUC أن أسلوبنا المقترح يجلب تحسينات كبيرة على العديد من خطوط الأساس القوية. توضح نتائج التقييم البشري أيضا أن طرازنا يمكن أن ينتج ملخصات أكثر متماسكا وكفاحيا مقارنة بطرق MDS التقليدية. علاوة على ذلك، فإن الهندسة المعمارية المقترحة لديها قدرة نقل قوية من إدخال واحد إلى متعدد الوثائق، والتي يمكن أن تقلل من عنق الزجاجة في مهام MDS.
تقدم هذه الورقة عملنا في مهمة تقدير الجودة WMT 2021 (QE).لقد شاركنا في جميع المهام الفرعية الثلاثة، بما في ذلك مهمة التقييم المباشر على مستوى الجملة، والكلمة ومهمة جهود جهود ما بعد التحرير للكلمة وحكم الجملة ومهمة الكشف عن الأخطاء الحرجة، في جميع أزو
اج اللغات.تستخدم أنظمتنا إطار النبة المقدرة، بشكل ملموس باستخدام XLM-Roberta مدربة مسبقا كقسم مؤشر ومجموعة من المهام أو التراجع كمقيم.بالنسبة لجميع المهام، نحسن أنظمتنا من خلال دمج الجملة بعد التعديل أو جملة ترجمة إضافية عالية الجودة في طريقة التعلم المتعدد أو ترميزها مع التنبؤ مباشرة.علاوة على ذلك، في وضع صفري بالرصاص، فإن استراتيجية تكبير البيانات الخاصة بنا تعتمد على تراجع مونت كارلو يجلب تحسنا كبيرا في مهمة DA Sub.والجدير بالذكر أن عروضنا تحقق نتائج ملحوظة على جميع المهام.
تهدف استخراج العلاقات المنخفضة الموارد (LRE) إلى استخراج حقائق العلاقة من كورسا محدودة المسمى عندما تشريح الإنسان نادرة. تعمل الأعمال الموجودة إما استخدام مخطط التدريب الذاتي لتوليد ملصقات زائفة ستتسبب في مشكلة الانجراف التدريجي، أو نظام التعلم التلو
ي الاستفادي الذي لا يتطلب التغيلات بشكل صريح. لتخفيف التحيز الاختيار بسبب عدم وجود حلقات ردود الفعل في نماذج التعلم الحالية، قمنا بتطوير طريقة تعليمية لتعزيز التعزيز التدرج لتشجيع بيانات الملصقات الزائفة لتقليد اتجاه نزول التدرج على البيانات المسمى و Bootstrap إمكانية التحسين من خلال التجربة والخطأ. نقترح أيضا إطارا يسمى Gradlre، الذي يتعامل مع سيناريوهات رئيسيين في استخراج علاقة الموارد المنخفضة. إلى جانب السيناريو حيث تكون البيانات غير المسبقة كافية، يتعامل Gradlre الموقف حيث لا تتوفر بيانات غير قابلة للتحقيق، من خلال استغلال طريقة تكبير سياقيا لتوليد البيانات. النتائج التجريبية على مجموعات بيانات عامة تثبت فعالية الخريجين في استخراج العلاقات المنخفضة للموارد عند مقارنة مع الأساس.
تمثيل المعنى التجريدي (AMR) هو لغة تمثيل معنى رسومي مصممة لتمثيل معلومات الاقتراح حول هيكل الوسيطة. ومع ذلك، فإنه غير قادر في الوقت الحاضر على تمثيل السياقات غير التابعة غير التابعة بشكل مرضي، وغالبا ما ترخيص الاستدلالات غير اللائقة. في هذه الورقة، ن
ظهر كيفية حل مشكلة عدم اليريدية دون جاذبية الرسوم البيانية الطبقات من خلال رسم خرائط من AMRS في حساب التفاضل والتكامل Lambda المكتوبة ببساطة (STLC). على الأقل بالنسبة لبعض الحالات، يتطلب ذلك إدخال دور جديد: المحتوى الذي يعمل كمشغل متباين. الترجمة المقترحة مستوحاة من أدب اللغويات الرسمية في دلالات الأحداث في تقارير الموقف. بعد ذلك، نتعلم تفاعل نطاق الكمي والمشغلين المتهمين في غمائم دي / دي ديكتو المزعومة. نعتمد عقدة النطاق من الأدب وتوفير دلالات صريحة متعددة الأبعاد تستخدم تخزين كوبر يتيح لنا أن تستمد قراءات DE RE و De De Di Dicto بالإضافة إلى قراءات نطاق الوسيط والتي تثبت صعوبة في الحسابات دون عقدة نطاق.
توليد الفقرات من المحتويات المتنوعة مهمة في العديد من التطبيقات.تنتج نماذج الجيل الموجودة محتويات مماثلة من السياقات المتجانسة بسبب ترتيب الجملة الثابتة إلى اليمين.تتبنى فكرتنا أوامر الجملة لتحسين تنوع المحتوى من الفقرة متعددة الجملة.نقترح برجعة إطار
رواية يتمثل هدفها في تعظيم توزيعات الفقرة المتنقلة المتوقعة بزيادة توزيعات الفقرة المتوقعة فيما يتعلق بجميع أوامر الجملة الممكنة.يستخدم Permgen تضمينه الموضعي الهرمي وتصميم إجراءات جديدة للتدريب، وفك التشفير في الجيل المسموح به بالسجن.تجارب على ثلاث معايير توليد الفقرة إظهار برخصة تولد مخرجات أكثر تنوعا بجودة أعلى من النماذج الحالية.