ترغب بنشر مسار تعليمي؟ اضغط هنا

Ecnuica في Semeval-2021 Task 11: قاعدة خط أنابيب استخراج المعلومات المستندة إلى القاعدة

ECNUICA at SemEval-2021 Task 11: Rule based Information Extraction Pipeline

97   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة مساعينا لحل المهام 11، NLPContribeGraph، Semeval-2021. كان الغرض من المهمة استخراج ثلاث مرات من ورقة في مجال معالجة لغة الطبيعة لإنشاء رسم بياني لمعرفة بحث مفتوح. تتضمن المهمة ثلاثة مهام فرعية: اكتشاف أحكام المساهمة في الأوراق وتحديد العبارات العلمية والعبارات المسندة من أحكام المساهمة؛ واستنتاج ثلاث مرات في شكل (الموضوع، المسند، كائن) كبيانات لبناء الرسم البياني المعرفة. في هذه الورقة، نطبق مجموعة من مختلف نماذج اللغة المدربة مسبقا بشكل جيد (PLM) للمهام واحدة واثنين. بالإضافة إلى ذلك، يتم اعتماد أساليب التدريب الذاتي لمعالجة النقص في البيانات المشروح. للمهمة الثالثة، بدلا من استخدام هياكل استخراج المعلومات المفتوحة الكلاسيكية (OIE) الكلاسيكية، فإننا نولد ثلاث مرات محتملة عبر القواعد المصممة يدويا وتطوير مصنف ثنائي للتمييز بين الآخرين من الآخرين. تظهر النتائج الكمية أننا نحصل على المرتبة الرابعة والثانية والثانية في ثلاث مراحل تقييم.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة النظام الفائز في مرحلة خطوط الأنابيب الطرفية للمهمة NLPConTribeGraph.يتكون النظام من ثلاث نماذج قائمة على بيرت وتستخدم النماذج الثلاثة لاستخراج الجمل والكيانات والألعاب الثلاثية على التوالي.تظهر التجارب أن أخذ العينات والتدريب الخصم يم كن أن يعزز النظام بشكل كبير.في مرحلة خطوط الأنابيب المناسبة، حصل نظامنا على متوسط F1 من 0.4703، أعلى بكثير من النظام الموضح الثاني الذي حصل على متوسط F1 من 0.3828.
تصف هذه الورقة نظام Duluth الذي شارك في مهمة Semeval-2021 11، الرسم البياني للمساهمة NLP.وتفصل في استخراج جمل المساهمة والكيانات العلمية وعلاقاتها من المقالات العلمية في مجال معالجة اللغة الطبيعية.يستخدم حلنا Deberta لتصنيف الجملة المتعدد الفوضى لاست خراج الجمل المساهمة ونوعها، وتحليل التبعية لتحديد كل جملة واستخراج ثلاثة أضعاف ثلاثة أضعاف.احتل نظامنا في المرتبة الخامسة من السبعة للمرحلة الأولى: خط أنابيب نهاية إلى نهاية، السادس من ثمانية للمرحلة 2 الجزء الأول: العبارات والثمانية، والخامس الثمانية للمرحلة 2 الجزء 2: استخراج ثلاثي.
يبذل الأبحاث في معالجة اللغة الطبيعية تطورات سريعة، مما يؤدي إلى نشر عدد كبير من الأوراق البحثية. العثور على أوراق بحثية ذات صلة ومساهمتها في المجال هي مشكلة صعبة. في هذه الورقة، نتعلم هذا التحدي عبر مهمة Semeval 2021 11: NLPConTributiongraph، من خلا ل تطوير نظام للحصول على الرسم البياني المعرفة المركزة للصفحة البحثية على أدب معالجة اللغة الطبيعية. تنقسم المهمة إلى ثلاث مهام فرعية: استخراج جمل المساهمة التي توضح مساهمات مهمة في المادة البحثية، واستخراج العبارات من أحكام المساهمة، والتنبؤ بالوحدات الإعلامية في المادة البحثية مع تكوين ثلاثي الأمراض من العبارات. النظام المقترح غير ملائم إلى مجال الموضوع ويمكن تطبيقه لبناء رسم بياني للمعرفة لأي منطقة. وجدنا أن نماذج اللغة القائمة على المحولات يمكن أن تحسن بشكل كبير التقنيات الحالية واستخدام النموذج المستند إلى Scibert. تستخدم المهمة الفرعية الأولى لدينا ثنائي الاتجاه LSTM (Bilstm) مكدسة أعلى طبقات نموذج Scibert، في حين أن المهمة الفرعية الثانية تستخدم مجال عشوائي مشروط (CRF) على رأس Scibert مع Bilstm. تستخدم المهمة الفرعية الثالثة نهجا عصبي مجتمعة مقرها مع الاستدلال لتنبؤ وحدة المعلومات وتشكيل ثلاثي الزيارة من العبارات. حقق نظامنا درجة F1 من 0.38، 0.63 و 0.76 في اختبار خط أنابيب نهاية إلى نهاية، اختبار استخراج العبارات واختبار استخراج ثلاث مرات.
نقترح سلسلة من النماذج العصبية التي تنفذ تصنيف الجملة، والاعتراف العبارة، واستخراج ثلاثي لإجراء المساهمات العلمية تلقائيا من منشورات NLP. لتحديد أحكام المساهمة الأكثر أهمية في ورقة، استخدمنا مصنف مقرا له بالميزات الموضعية (SubTask 1). تم استخدام نموذ ج BERT-CRF للتعرف على العبارات ذات الصلة وتمييزها في جمل المساهمة (SubTask 2). قمنا بتصنيف ثلاث مرات إلى عدة أنواع بناء على ما إذا كانت عناصرها وكيف تم التعبير عن عناصرها في نص، ومعالجتها كل نوع باستخدام مصنفين منفصلين مقرهم بالمقيمين بالإضافة إلى القواعد (SubTask 3). تم تصنيف نظامنا رسميا في المرحلة الأولى في تقييم المرحلة الأولى وأول مرة في كلا جزأين التقييم المرحلة 2. بعد إصلاح خطأ التقديم في PHARESE 1، فإن نهجنا يؤدي إلى أفضل النتائج بشكل عام. في هذه الورقة، بالإضافة إلى وصف للنظام، نقدم أيضا تحليلا إضافيا لنتائجنا، مما يسلط الضوء على نقاط القوة والقيود لها. نجعل شفرةنا متوفرة علنا ​​في https://github.com/liu-hy/nlp-contrib-graph.
في هذا التقرير الفني، وصفنا أن خط أنابيب ASR-MT المصنف الذي تم ضبطه على المهمة المشتركة IWSLT.نقوم بإزالة عينات الكلام الأقل فائدة عن طريق فحص WER مع نموذج ASR، وتدريب أحدث وحدة ASR القائمة على WAV2VEC ومقرها المحولات بناء على البيانات المرتبطة.بالإض افة إلى ذلك، نقوم بتخفيف Errata التي يمكن أن تتداخل مع عملية الترجمة الآلية واستخدامها لتدريب وحدة MT القائمة على المحولات.أخيرا، في مرحلة الاستدلال الفعلي، نستخدم نموذج اكتشاف حدود الجملة المدرب مع بيانات مقيدة لدمج مخرجات ASR بشكل صحيح في جمل كاملة.تتم معالجة الجمل المدمجة باستخدام جزء من الكلام.يتم تحقيق النتيجة النهائية من قبل وحدة MT المدربة.يعرض الأداء باستخدام مجموعة DEV Bleu 20.37، وهذا النموذج يسجل أداء Bleu 20.9 مع مجموعة الاختبار.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا