نقدم شكل جديد من طريقة الفرقة - داعية الشيطان، والذي يستخدم نموذجا مختلفا عمدا لفرض السفلات الأخرى داخل الفرقة للتعاون بشكل أفضل.تتكون طريقتنا من إعدادات تدريبية مختلفة: يتبع المرء عملية التدريب التقليدية (القاعدة)، والآخر يتم تدريبه بواسطة ملصقات تم
إنشاؤها بشكل مصطنع (DevAfv).بعد تدريب النماذج، يتم ضبط نماذج القواعد بشكل جيد من خلال وظيفة خسارة إضافية، والتي تستخدم نموذج DevAdh كعائق.في اتخاذ قرار نهائي، يبلغ نموذج الفرقة المقترح درجات نماذج المعايير ثم يطرح نتيجة نموذج DevAdh.يحسن نموذج DevAPAdh الأداء العام للنماذج الأخرى داخل الفرقة.بالإضافة إلى إطار عملنا الذي يعتمد على الخلفية النفسية، فإنه يظهر أيضا أداء مماثل أو محسن على 5 مهام تصنيف النص عند مقارنته بطرق الفرقة التقليدية.
عادة ما يتم تدريب النماذج العصبية الأكاديمية لدقة COMERASE (COREF) على مجموعة بيانات واحدة، ويتم قياس التحسينات النموذجية في نفس مجموعة البيانات.ومع ذلك، تعتمد تطبيقات COREF العالمية في العالم الحقيقي على المبادئ التوجيهية التوضيحي ومجال مجموعة البيا
نات المستهدفة، والتي تختلف غالبا عن تلك الموجودة في أونتونو.نحن نهدف إلى تحديد قابلية تحويل نماذج COREF بناء على عدد المستندات المشروح المتوفرة في مجموعة البيانات المستهدفة.نحن ندرس أحد عشر مجموعة بيانات مستهدفة ونتطلع إلى أن التدريب المستمر فعال باستمرار وفائدة بشكل خاص عندما تكون هناك عدد قليل من المستندات المستهدفة.نحن نؤسس معايير جديدة في العديد من مجموعات البيانات، بما في ذلك النتائج الحديثة على Preco.
توضح هذه الورقة تقديم NetMarble إلى مهمة مشاركة WMT21 التلقائية بعد التحرير (القرد) لزوج اللغة الإنجليزية الألمانية. أولا، نقترح استراتيجية تدريب المناهج الدراسية في مراحل التدريب. تم اختيار نموذج الترجمة من WMT19 Face Facebook لإشراك الشبكات العصبية
الكبيرة والقوية المدربة مسبقا. ثم، نقوم بتنفيذ نموذج الترجمة بمستويات مختلفة من البيانات في كل مراحل تدريبية. مع استمرار مراحل التدريب، نجعل النظام يتعلم حل مهام متعددة عن طريق إضافة معلومات إضافية في مراحل التدريب المختلفة تدريجيا. نعرض أيضا طريقة لاستخدام البيانات الإضافية في حجم كبير لمهام القرد. لمزيد من التحسين، نطبق استراتيجية التعلم متعددة المهام مع متوسط الوزن الديناميكي خلال مرحلة ضبط الدقيقة. لضبط Corpus القرد مع بيانات محدودة، نضيف بعض المهام الفرعية ذات الصلة لتعلم تمثيل موحد. أخيرا، للحصول على أداء أفضل، نستفيد الترجمات الخارجية كترجمة آلية ازدهار (MT) أثناء التدريب على ما بعد التدريب والضبط. كما تظهر النتائج التجريبية، يعمل نظام القرد لدينا بشكل كبير على تحسين ترجمات نتائج MT المقدمة بنسبة -2.848 و +3.74 على مجموعة بيانات التطوير من حيث TER و Bleu، على التوالي. كما يوضح فعاليته في مجموعة بيانات الاختبار بجودة أعلى من مجموعة بيانات التطوير.
استهداف المستخدم مهمة أساسية في صناعة الإعلانات الحديثة: بالنظر إلى حزمة من الإعلانات للحصول على فئة معينة من المنتجات (على سبيل المثال، الشاي الأخضر)، حدد المستخدمين عبر الإنترنت الذين يجب استهداف حزمة الإعلانات.عادة ما يتم تدريب نموذج استهداف المست
خدم (حزمة الإعلانية) استخدام بيانات النقر التاريخية: تتوافق المثيلات الإيجابية للمستخدمين الذين نقروا في إعلان في الحزمة من قبل، في حين تتوافق الحالات السلبية للمستخدمين الذين لم ينقرون على أي إعلانات في الحزمة التيعرضت لهم.ومع ذلك، فإن جمع كمية كافية من بيانات التدريب الإيجابية لتدريب نموذج استهداف مستخدم دقيق، ومع ذلك، ليس بأي حال من الأحوال تافهة.تركز هذه الورقة على تطوير طريقة للتموة التلقائية لمجموعة حالات التدريب الإيجابية.النتائج التجريبية على مجموعة بيانات اثنين، بما في ذلك مجموعة بيانات حقيقية لشركة العالم، توضح فعالية طريقة لدينا المقترحة.
نحن نهدف إلى تحديد أسباب العمل البشري تلقائيا في مقاطع الفيديو عبر الإنترنت.نحن نركز على النوع الواسع من Lifestyle Vlogs، حيث يقوم الأشخاص بإجراء أعمال بينما يصفهم لفظيا.نقدم وجعلها متاحة للجمهور DataSet Whyact، والتي تتكون من 1،077 إجراء بصري مشروح
يدويا مع أسبابها.نحن تصف نموذج متعدد الوسائط يرفع المعلومات المرئية والنصية إلى الاستفادة تلقائيا الأسباب المقابلة للعمل المقدم في الفيديو.
المحاكمة التكيفية في المجال، أي الاحتجاج المستمر غير المدعوم من نموذج اللغة على النص الخاص بالمجال، يحسن نمذجة النص لمهام المصب داخل المجال. تعتمد العديد من تطبيقات العالم الحقيقي على نص خاص بالمجال، على سبيل المثال العمل مع الوثائق المالية أو الطبية
الحيوية، وغالبا ما تحتاج هذه التطبيقات إلى دعم لغات متعددة. ومع ذلك، يمكن الحصول على بيانات محتملة متعددة اللغات متعددة اللغات واسعة النطاق لمثل هذه السيناريوهات، بسبب اللوائح أو التشريعات أو مجرد نقص في نص لغة ولغة خاصة. أحد الحلول هو تدريب نموذج واحد متعدد اللغات، والاستفادة من البيانات المتاحة بأكبر عدد ممكن من اللغات. في هذا العمل، نستكشف عن فوائد الاحتجاج بالتكيف مع التركيز على التكيف مع لغات متعددة داخل مجال معين. نقترح تقنيات مختلفة لتكوين شرطة المحاطات التي تمكن نموذج اللغة كلاهما خاص بالمجال وتعدد اللغات. التقييم على تسعة مجموعات بيانات خاصة بالمجال --- بالنسبة للاعتراف بالكيان الطبي الطبيعي وتصنيف الجملة المالية --- تغطي سبعة لغات مختلفة تظهر أن نموذج واحد خاص متعدد اللغات يمكن أن يتفوق على النموذج العام متعدد اللغات، ويؤدي بالقرب من نظيره أحادي التوتر. يحمل هذا البحث عبر اثنين من أساليب ما قبل الاحتجاج المختلفة، محاولات محول ومحاكاة تستند إلى النموذج الكامل.
التحيزات النمطية غير العادلة (على سبيل المثال، التحيزات الجنسانية أو العنصرية أو الدينية) ترميز نماذج اللغة الحديثة المحددة مسبقا (PLMS) لها آثار أخلاقية سلبية على الاعتماد الواسع النطاق لتكنولوجيا اللغات الحديثة. لعلاج ذلك، تم تقديم مجموعة واسعة من
تقنيات المساواة مؤخرا لإزالة هذه التحيزات النمطية من PLMS. ومع ذلك، فإن طرق الدخل الحالية، ومع ذلك، قم بتعديل جميع معلمات PLMS مباشرة، والتي - إلى جانب كونها باهظة الثمن - مع خطر الكامنة من (كارثي) نسيان المعرفة اللغوية المفيدة المكتسبة في الاحتجاج. في هذا العمل، نقترح نهجا أكثر استدامة للدوائر على أساس محولات Deviasing المخصصة، التي دبلها أديل. بشكل ملموس، نحن (1) وحدات محول حقن في طبقات PLM الأصلية و (2) تحديث المحولات فقط (أي ونحن نعرض أديل، في الدخل الجنساني من BERT: تقييمنا الواسع، يشمل ثلاثة تدابير محلية خارجية ومثيرة للخدمة الخارجية، مما يجعل أديل، فعالة للغاية في تخفيف التحيز. نوضح كذلك - نظرا لطبيعتها المعيارية - أديل، إلى جانب محولات المهام، تحتفظ بالإنصاف حتى بعد التدريب على النمو النطاق واسع النطاق. وأخيرا، عن طريق بيرت متعددة اللغات، نجحنا في نقل أديل بنجاح إلى ست لغات مستهدفة.
يتم إنشاء مجموعات بيانات الحوار الشائعة مثل MultiWoz من خلال توفير تعليمات حشد من التعليمات، معبرا عنها بلغة طبيعية، والتي تصف المهمة التي يجب إنجازها.يلعب عمال الحشد دور مستخدم وكيل لتوليد الحوار لإنجاز المهام التي تنطوي على جداول حجز مطعم، وتدعو إل
ى سيارة أجرة وما إلى ذلك. في هذه الورقة، نقدم استراتيجية إنشاء بيانات تستخدم نموذج اللغة المدرب مسبقا، GPT2، لمحاكاةالتفاعل بين عمال الحشد من خلال إنشاء روبوت مستخدم وبوت وكيل.نحن ندرب المحاكاة باستخدام نسبة أصغر من المحادثات الناتجة عن الحشود الفعلية وتعليماتها المقابلة.نوضح ذلك باستخدام البيانات المحاكاة، نحقق تحسينات كبيرة في إعدادات الموارد المنخفضة على مجموعة بيانات متوفرة للجمهور - مجموعة بيانات MultiWoz و DataSet Chamenta.
التصنيفات هي تمثيل رمزي للعلاقات الهرمية بين المصطلحات أو الكيانات. في حين أن التصنيفات مفيدة في تطبيقات واسعة، فإن تحديثها أو الحفاظ عليها يدويا كثيفة العمالة وصعبة الحجم في الممارسة العملية. تفشل الأساليب الإشرافية التقليدية لهذه المهمة التخصيب هذه
في العثور على والدي الأمثل للمصطلحات الجديدة في إعدادات الموارد المنخفضة حيث تتوفر تصنيفات صغيرة فقط بسبب التجاوز عن العلاقات الهرمية في التصنيفات. لمعالجة مشكلة تخصيب التصنيف المنخفض للموارد، نقترح Musubu، وهو إطار فعال لإثراء التصنيف في إعدادات الموارد المنخفضة مع نماذج اللغة المحددة مسبقا (LMS) كقواعد المعرفة للتعويض عن نقص المعلومات. يستفيد Musubu مصنف قائم على LM لتحديد ما إذا كان أزواج المصطلح المدبأ أو عدم وجود علاقات هرمية. يستخدم Musubu أيضا أنماطا هارا لتوليد استفسارات للاستفادة من المعرفة الضمنية من LM بكفاءة من أجل التنبؤ الأكثر دقة. إننا نوضح تجريبيا فعالية طريقتنا في تجارب واسعة النطاق بشأن التصنيفات من كل من مهمة Semeval ومجموعات بيانات التجزئة العالمية الحقيقية.
نقدم نتائج المهمة الأولى على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع.تتكون المهمة على التقييم المتعدد إلى العديد من النماذج الفردية عبر مجموعة متنوعة من اللغات المصدر والمستهدفة.هذا العام، تتألف المهمة على ثلاثة إعدادات مختلفة: (1) المهمة الصغي
رة 1 (لغات أوروبا الوسطى / الجنوبية الشرقية)، (2) المهمة الصغيرة 2 (لغات جنوب شرق آسيا)، و (3) مهمة كاملة (كل 101 × 100 زوج أزواج).استخدمت جميع المهام DataSet Flores-101 كمعيار التقييم.لضمان طول العمر من مجموعة البيانات، لم يتم إصدار مجموعات الاختبار علنا وتم تقييم النماذج في بيئة خاضعة للرقابة على Dynabench.كان هناك ما مجموعه 10 فرق مشاركة للمهام، بما مجموعه 151 من العروض النموذجية المتوسطة و 13 نماذج نهائية.تظهر نتائج هذا العام تحسنا كبيرا على خطوط الأساس المعروفة مع +17.8 بلو ل Task-Task2، +10.6 للمهمة الكاملة و +3.6 للمهمة الصغيرة 1.