مع زيادة الطفرة الأخيرة في التطبيقات الاجتماعية التي تعتمد على الرسوم البيانية المعرفة، أصبحت الحاجة إلى التقنيات لضمان الإنصاف في الأساليب القائمة على KG واضحة بشكل متزايد. أظهرت الأعمال السابقة أن كلية كجمها عرضة للحيوانات الاجتماعية المختلفة، وقد
اقترحت طرق متعددة لدخاناتها. ومع ذلك، في مثل هذه الدراسات، كان التركيز على تقنيات deviasing، في حين يتم تحديد العلاقات التي ستكون degiased يدويا من قبل المستخدم. نظرا لأن المواصفات اليدوية هي نفسها عرضة للتحيز الإدراكي البشري، فهناك حاجة إلى نظام قادر على قياس وفضح التحيزات، التي يمكن أن تدعم قرارات أكثر استنارة بشأن ما له ديبي. لمعالجة هذه الفجوة في الأدب، وصفنا إطارا لتحديد التحيزات الموجودة في Adments Graph Admings، بناء على مقاييس BIAS الرقمية. نوضح الإطار بثلاث تدابير تحيز مختلفة حول مهمة التنبؤ بالمهنة، ويمكن امتدت بمرونة لتعريفات وتطبيقات إضافية. يمكن بعد ذلك تسليم العلاقات التي يتم تمييزها على أنها منحازة إلى صانعي القرار للحكم على الدخل اللاحق.
توضح هذه الورقة تقديم NetMarble إلى مهمة مشاركة WMT21 التلقائية بعد التحرير (القرد) لزوج اللغة الإنجليزية الألمانية. أولا، نقترح استراتيجية تدريب المناهج الدراسية في مراحل التدريب. تم اختيار نموذج الترجمة من WMT19 Face Facebook لإشراك الشبكات العصبية
الكبيرة والقوية المدربة مسبقا. ثم، نقوم بتنفيذ نموذج الترجمة بمستويات مختلفة من البيانات في كل مراحل تدريبية. مع استمرار مراحل التدريب، نجعل النظام يتعلم حل مهام متعددة عن طريق إضافة معلومات إضافية في مراحل التدريب المختلفة تدريجيا. نعرض أيضا طريقة لاستخدام البيانات الإضافية في حجم كبير لمهام القرد. لمزيد من التحسين، نطبق استراتيجية التعلم متعددة المهام مع متوسط الوزن الديناميكي خلال مرحلة ضبط الدقيقة. لضبط Corpus القرد مع بيانات محدودة، نضيف بعض المهام الفرعية ذات الصلة لتعلم تمثيل موحد. أخيرا، للحصول على أداء أفضل، نستفيد الترجمات الخارجية كترجمة آلية ازدهار (MT) أثناء التدريب على ما بعد التدريب والضبط. كما تظهر النتائج التجريبية، يعمل نظام القرد لدينا بشكل كبير على تحسين ترجمات نتائج MT المقدمة بنسبة -2.848 و +3.74 على مجموعة بيانات التطوير من حيث TER و Bleu، على التوالي. كما يوضح فعاليته في مجموعة بيانات الاختبار بجودة أعلى من مجموعة بيانات التطوير.
يعرض نماذج Resunding Runing Running لتلخيص محادثة محادثة الطبيب تلقائيا العديد من التحديات: بيانات تدريب محدودة، ونقل مجال كبير، والنصوص الطويلة والصعارية، والتقلبات الموجزة عالية الهدف. في هذه الورقة، نستكشف جدوى استخدام نماذج المحولات مسبقا لتلخيص
محادثات الطبيب المريض تلقائيا مباشرة من النصوص. نظهر أنه يمكن إنشاء ملخصات بطلاقة وكافية بيانات تدريبية محدودة من قبل BARTING BART على مجموعة بيانات شيدة خصيصا. تتجاوز النماذج الناتجة بشكل كبير أداء Annotator البشري المتوسط ونوعية العمل المنشور السابق للمهمة. نقيم طرق متعددة للتعامل مع المحادثات الطويلة، ومقارنتها إلى خط الأساس الواضح لاقتطاع المحادثة لتناسب حد الطول المحدد مسبقا. نقدم نهجا متعدد المراحل يتناول المهمة من خلال تعلم اثنين من النماذج الدقيقة: واحد لتلخيص قطع المحادثة في ملخصات جزئية، تليها واحدة لإعادة كتابة مجموعة الملخصات الجزئية إلى ملخص كامل. باستخدام مجموعة بيانات ذات ضبط دقيقة تم اختيارها بعناية، تظهر هذه الطريقة فعالة في التعامل مع محادثات أطول، وتحسين جودة الملخصات التي تم إنشاؤها. نقوم بإجراء كل من التقييم التلقائي (من خلال Rouge ومقاييس مقرها المفهوم يركز على النتائج الطبية) وتقييم بشري (من خلال أمثلة نوعية من الأدبيات، تقييم الهلوسة، التعميم، الطلاقة، والنوعية العامة للملخصات التي تم إنشاؤها).
أظهرت الدراسات الحديثة أن مطالبات تحسين أداء نماذج اللغة الكبيرة المدربة مسبقا مسبقا لتصنيف نص قليل بالرصاص. ومع ذلك، فمن غير الواضح كيف يمكن نقل المعرفة المطالبة عبر مهام NLP مماثلة لغرض التعزيز المتبادل. بناء على embeddings الفوري المستمر، نقترح Tr
ansprompt، إطار مطالب قابل للتحويل لتعلم قليل من الطلقات عبر مهام مماثلة. في Transprompt، نحن نوظف إجراءات اقتناء المعرفة متعددة المهام لتدريب المتعرية التي تلتقط المعرفة القابلة للتحويل المهمة. تم تصميم متزحاب تقنيات التغذيتين لجعلها أكثر ملاءمة وغير مرغوبة وغير متحيزة تجاه أي مهام. بعد ذلك، يمكن تكييف المتعلم التعريف مع المهام المستهدفة بدقة عالية. تبين تجارب واسعة أن Transprompt تفوقت على المهمة المفردة والاستصراد القوي عبر المهام عبر مهام NLP متعددة ومجموعات البيانات. نؤدي كذلك إلى أن المتعلم التلوي يمكن أن يحسن بشكل فعال الأداء على المهام غير المرئية مسبقا؛ وتتفوق TransPrompt أيضا على خطوط خطوط خطوط خطوط وطنية قوية عند التعلم مع مجموعات تدريب كاملة.
تعد دول كيان تتبع مهمة معالجة لغات طبيعية تفترض أن تتطلب شرحا بشريا. من أجل تقليل الوقت والنفقات المرتبطة بالتعليق التوضيحي، نقدم طريقة جديدة لاستخراج حالات الكيان تلقائيا، بما في ذلك الموقع والوجود حالة الكيانات، بعد Dalvi et al. (2018) وتاندون وآخر
ون. (2020). لهذا الغرض، نعتمد في المقام الأول على التمثيل الدلالي الناتج عن حالة محلل الحرف الحرفي الفن (Gung، 2020)، واستخراج الكيانات (مشاركين الأحداث) ودولهم، بناء على المسندات الدلالية للتمثيل الدليلي الذي تم إنشاؤه، وهو في تنسيق المنطق المقترح. للتقييم، استخدمنا Propara (Dalvi et al.، 2018)، وهي مجموعة بيانات لفهم القراءة التي يتم تفاحها مع الدول الكيانية في كل جملة، وتتبع تلك الدول في فقرات النصوص الإجرائية ذات التأليف البشري الطبيعي. بالنظر إلى القيود المقدمة من الطريقة، فإن خصائص شروح DataSet Propara، وأن نظامنا، Lexis، لا تستخدم بيانات التدريب الخاصة بمهام المهام وتعتمد فقط على Verbnet، والنتائج واعدة، وعرض قيمة الموارد المعجمية.
نقدم المهمة الجديدة لحل النزاعات اسم النطاق (DNDR)، والذي يتنبأ بنتيجة عملية لحل النزاعات حول استحقاق قانوني لاسم النطاق.يحدد TheICann UDRP عملية تحكيم إلزامية للنزاع بين مالك العلامة التجارية وسجل اسم النطاق المتعلق باسم مجال كبير المستوى (GTLD) (GT
LD) (واحد ينتهي في .com، .org، .NET، إلخ).يؤدي طبيعة المشكلة إلى مجموعة بيانات متحفة للغاية، والتي تنبع من القدرة على تسجيل اسم مجال مع سهولة شديدة، ومصروفات قليلة للغاية، ولا حاجة لإثبات استحقاقها.في هذه الورقة، نحن تصف ثيتاسك ومجموعة البيانات المرتبطة بها.ونحن نقدم أيضا نتائج مرجعية بناء على مجموعة من MOD-ELS، والتي تظهر أن خطوط الأساس البسيطة بشكل عام صعبة التغلب عليها بسبب توزيع البيانات المنحرفة، ولكن في حالة المستفتى المحددة التي قدمت استجابة، برت ضبط صقليقدم النموذج تحسينات كبيرة على نموذج فئة الأغلبية
تدوين المعرفة المنطقية في الآلات هو هدف طويل الأطول من الذكاء الاصطناعي. في الآونة الأخيرة، تم إحراز تقدم كبير نحو هذا الهدف مع تقنيات بناء قاعدة المعرفة التلقائية (KB). ومع ذلك، فإن هذه التقنيات تركز في المقام الأول على اكتساب بيانات KB الإيجابية (T
RUE)، على الرغم من أن البيانات السلبية (الخاطئة) غالبا ما تكون مهمة أيضا للمنطق التمييزي على متن العموم KBS. كخطوة أولى نحو الأخير، تقترح هذه الورقة NEGATER، وهو إطار يصنف السلبيات المحتملة في العمولة KBS باستخدام نموذج لغة سياقي (LM). الأهم من ذلك، حيث لا تحتوي معظم KBS على السلبيات، تعتمد Negater فقط على المعرفة الإيجابية في LM ولا تتطلب أمثلة سلبية للحقيقة. توضح التجارب أنه مقارنة بنهج تكبير البيانات المتعاقبة متعددة النزاع، فإن نطاط غلة السلبيات التي تعتبر أكثر حكما متماسكا ومفيدا --- تؤدي إلى تحسينات دقة ذات دلالة إحصائية في مهمة استكمال KB صعبة وتؤكد أن المعرفة الإيجابية في LMS يمكن إعادة -العرضة "لتوليد المعرفة السلبية.
التضليل عبر الإنترنت هو قضية اجتماعية سائدة، مع anversaries تعتمد على الأدوات التي تتراوح من مزيفة رخيصة إلى مزيفة عميقة متطورة. نحن دوافع من سيناريو التهديد حيث يتم استخدام صورة خارج السياق لدعم سرد معين. في حين أن بعض مجموعات البيانات السابقة للكشف
عن تناسق نص الصورة تولد عينات من خلال معالجة النص، نقترح مجموعة بيانات حيث تكون كل من الصور والنص غير المدمجة ولكن غير متطابقة. نقدم عدة استراتيجيات لاستعادة الصور المقنعة تلقائيا للحصول على تعليق معين، والتقاط الحالات مع كيانات غير متناسقة أو السياق الدلالي. لدينا نطاق واسع النطاق تلقائيا لوحة بيانات الأخبار: (1) يوضح أن إعادة شحن الصورة التي يحركها الجهاز هي الآن تهديد واقعي، و (2) توفر عينات تمثل حالات تحديا غير متطابقة بين النص والصورة في الأخبار التي تتمكن من تضليل البشر وبعد نحن نقسم عدة نماذج متعددة الوسائط في مجموعة بياناتنا وتحليل أدائها عبر مجالات محاكمة مختلفة والشبكات المرئية.
يشمل فهم تعبيرات الوقت بمهام فرعية: الاعتراف والتطبيع. في السنوات الأخيرة، تم إحراز تقدم كبير في الاعتراف بعصائر الوقت أثناء تأخر البحث عن التطبيع. تعتمد أساليب تطبيع Sota الحالية على قواعد أو قواعد النحوية التي صممها الخبراء، مما يحد من أدائها في شر
يوس الناشئة، مثل نصوص وسائل التواصل الاجتماعي. في هذه الورقة، نقوم بالنماذج تعبير التطبيع في الوقت نفسه كتسلسل للعمليات لبناء القيمة الزمنية الطبيعية، ونقدم طريقة جديدة تسمى Artime، والتي يمكن أن تولد تلقائيا قواعد التطبيع من بيانات التدريب دون تدخلات خبراء. على وجه التحديد، يلتقط Artime تلقائيا تسلسل عمليات التشغيل الممكنة من البيانات المشروحة ويولد قواعد التطبيع في التعبيرات الزمنية بأشكال سطح مشتركة. تظهر النتائج التجريبية أن Artime يمكن أن يتجاوز بشكل كبير أساليب Sota على القياس التغريدات، وتحقق نتائج تنافسية مع طرق القاعدة التي تم تصميمها من الخبراء الموجودة في معيار Tempeval-3.
لتوفير تحليل الأبحاث الأخيرة من جيل الأسئلة التلقائي من النص، أجرينا مسح 9 أوراق بين عامي 2019 إلى أوائل 2021، تم استرجاعها من الورق مع التعليمات البرمجية (PWC).تتبع بحثنا الاستطلاع الذي أبلغ عنه كردي وآخرون. (2020)، حيث يتم توفير تحليل 93 ورقة من عا
م 2014 إلى مبادر عام 2019.لقد قمنا بتحليل الخمسين من الجوانب بما في ذلك: (1) الغرض من جيل السؤال، (2) طريقة التوليد، و (3) تقييم.وجدنا أن النهج الحديثة تميل إلى الاعتماد على المعلومات الدلالية والنماذج القائمة على المحولات تجذب اهتماما متزايدا لأنها أكثر كفاءة.من ناحية أخرى، نظرا لأنه لا يوجد أي مقياس تقييم تلقائي تم الاعتراف على نطاق واسع المصمم لجيل السؤال، يعتمد الباحثون مقاييس مهام معالجة اللغة الطبيعية الأخرى لمقارنة الأنظمة المختلفة.