ترغب بنشر مسار تعليمي؟ اضغط هنا

النمذجة السياق على مستوى المستند للكشف عن الحدث من خلال اختيار السياق الهام

Modeling Document-Level Context for Event Detection via Important Context Selection

264   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف مهمة اكتشاف الحدث (ED) في استخراج المعلومات إلى الاعتراف وتصنيف كلمات الأحداث في النص. تميز التقدم الأخير نماذج لغوية متقدمة للمحولات المتقدمة (على سبيل المثال، بيرت) كعنصر حاسم في النماذج الحديثة للإد. ومع ذلك، فإن الحد الطول لنصوص الإدخال هو حاجز لمثل هذه النماذج المحددة لأنها لا تستطيع تشفير سياق مستوي المستند طويل المدى الذي ثبت أنه مفيد لإد إد. لمعالجة هذه المشكلة، نقترح طريقة رواية لنموذج سياق مستوى المستندات لتحديد الجمل ذات الصلة بشكل حيوي في وثيقة التنبؤ بالحدث بالسجن الهدف. سيتم بعد ذلك زيادة الجملة المستهدفة بالجمل المختارة وتستهلكها النماذج اللغوية القائمة على المحولات لتعلم التمثيل المحسن. تحقيقا لهذه الغاية، يتم استخدام خوارزمية التعزيز لتدريب اختيار الجملة ذات الصلة من أجل إد. يتم بعد ذلك تقديم العديد من أنواع المعلومات لتشكيل وظيفة المكافآت لعملية التدريب، بما في ذلك أداء إد، وإشراك الجملة، وعلاقات الخطاب. تجاه تجاربنا الواسعة على مجموعات البيانات القياسية المتعددة تكشف عن فعالية النموذج المقترح، مما يؤدي إلى أداء جديد من الفنادق الجديدة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

من المعروف أن مهام توليد اللغة الطبيعية (NLG) على اللغات المؤيدة للإسقاط تعاني من مشاكل ضمير Zero (ZP)، وتظل المشكلات تحديا بسبب ندرة NLG Corpora المشروح من ZP.في هذه الحالة، نقترح نهجا للغاية على مرحلتين على مرحلتين للغاية على نمذجة السياق الزوجي مع استعادة ZP لتخفيف مشكلة ZP في مهام NLG.وخاصة، نحن نؤيد عملية الاسترداد في أزياء تحت إشراف المهمة حيث يتم تعلم إمكانية استعادة تمثيل ZP أثناء عملية تعلم المهام NLG، وبالتالي فإن طريقتنا لا تتطلب مشروحة NLG Corpora مع ZPS.بالنسبة لتعزيز النظام، نتعلم بوت عدوى لضبط مخرجاتنا النموذجية لتخفيف انتشار الخطأ الناجم عن نظام ZPS المسترد.تظهر التجارب في ثلاثة مهام NLG على مستوى الوثيقة، أي الترجمة الآلية، الإجابة على الأسئلة، والتلخيص، أن نهجنا يمكن أن يحسن الأداء إلى حد كبير، وتحسين الترجمة الضميرة مثيرة للإعجاب للغاية.
تهدف التعرف على علاقة الخطاب الضمني (IDRR) إلى تحديد العلاقات المنطقية بين جملتين مجاورة في الخطاب.تفشل النماذج الحالية في الاستفادة الكاملة من المعلومات السياقية التي تلعب دورا مهما في تفسير كل جملة محلية.في هذه الورقة، فإننا نقترحنا بالتالي شبكة تت بع السياق في الرسم البياني القائمة على الرسم البياني (شبكة CT) لنموذج سياق الخطاب ل IDRR.تقوم CT-Net أولا بتحويل الخطاب في الرسم البياني لرابطة الفقرة (PAG)، حيث تتبع كل جملة سياقها المرتبطة ارتباطا وثيقا من الخطاب المعقد من خلال أنواع مختلفة من الحواف.بعد ذلك، استخراج CT-NET تمثيل سياقي من PAG من خلال آلية تحديث تم تصميمه خصيصا، مما يمكن أن يدمج بفعالية من كل من دلالات السياق على مستوى الجملة ومستوى الرمز المميز.تشير التجارب على PDTB 2.0 إلى أن شبكة CT-NET أكبر أداء أفضل من النماذج التي نموذجها تقريبا السياق.
تهدف ترجمة جهاز الوثائق إلى ترجمة جملة المصدر إلى اللغة المستهدفة بحضور معلومات سياقية إضافية.ومع ذلك، فإنه يعاني عادة من نقص البيانات ثنائية اللغة الوثيقة.لعلاج هذا، هنا نقترح نهجا ما قبل السياق البسيط والفعال في السياق، والذي يستحق الاستفادة من كور سا واسعة النطاق الخارجي.ينفذ النموذج المقترح توليد جملة جملة لالتقاط تبعية الجملة المتعددة في الوثيقة المستهدفة، والترجمة عبر الجملة الصريعة للاستفادة بشكل أفضل من المعلومات السياقية القيمة.توضح تجارب شاملة أن نهجنا يمكن أن تحقق أداء أحدث على ثلاثة مجموعات بيانات معيار، مما يتفوق بشكل كبير على مجموعة متنوعة من الأساس.
تستخدم الأساليب القائمة على نطاق واسع على نطاق واسع لمهام استخراج مفاتيح المفاتيح غير المنشأة (UKE). بشكل عام، تقوم هذه الأساليب ببساطة بحساب أوجه التشابه بين Aregeddings و Award Action، وهو غير كاف لالتقاط سياق مختلف لنموذج UKE أكثر فعالية. في هذه ا لورقة، نقترح طريقة جديدة ل UKE، حيث يتم تصميم السياقات المحلية والعالمية بشكل مشترك. من وجهة نظر عالمية، نقوم بحساب التشابه بين عبارة معينة والوثيقة بأكملها في مساحة المتجهة كما نماذج تضمينها الانتقالية. من حيث الرأي المحلي، نقوم أولا ببناء هيكل رسم بياني يستند إلى المستند حيث تعتبر العبارات كأعلى رؤوس والحواف هي أوجه التشابه بين القمم. بعد ذلك، اقترحنا طريقة حساب مركزية جديدة لالتقاط المعلومات البارزة المحلية بناء على هيكل الرسم البياني. أخيرا، نكتف على نمذجة السياق العالمي والمحلي للتصنيف. نقوم بتقييم نماذجنا على ثلاثة معايير عامة (Inspec، DUC 2001، Semeval 2010) ومقارنتها مع النماذج الموجودة في أحدث النماذج. تظهر النتائج أن نموذجنا يفوق معظم النماذج أثناء التعميم بشكل أفضل على مستندات المدخلات ذات النطاقات والطول المختلفة. تظهر دراسة الاجتثاث الإضافية أن كل من المعلومات المحلية والعالمية أمر بالغ الأهمية لمهام استخراج المفاتيح غير المنشورة.
منذ إنشائها، أدت نماذج اللغة القائمة على المحولات إلى مكاسب أداء مثيرة للإعجاب عبر مهام معالجة لغات طبيعية متعددة. بالنسبة للعربية، يتم تحقيق النتائج الحالية من أحدث البيانات في معظم مجموعات البيانات بواسطة نموذج اللغة العربية. على الرغم من هذه التطو رات الحديثة، يستمر الكشف عن السخرية والشاحنات بمهام تحديا باللغة العربية، بالنظر إلى التشكل الغني باللغة والتفاوت اللغوي والاختلافات الجدلية. تقدم فريق Project Team Profers لفريق SPPU-AASM للمهمة المشتركة Wanlp Arsarcasm المشتركة 2021، والمراكز حول الكشف عن السخرية ومشاعر القطبية للعقائز العربية. تقترح الدراسة نموذجا مختلطا، يجمع بين تمثيلات الجملة من أرابيرت مع ناقلات كلمة ثابتة تدربت على شركة الوسائط الاجتماعية العربية. يحقق النظام المقترح درجة F1-Saarchastic من 0.62 ودرجة F-PN من 0.715 بمهام الكشف عن السخرية والشاحنات، على التوالي. تشير نتائج المحاكاة إلى أن النظام المقترح تتفوق على العديد من النهج الحالية لكل من المهام، مما يشير إلى أن دمج تمثيلات نصية خالية من السياق والسياق يمكن أن تساعد في التقاط جوانب تكميلية من معنى الكلمات باللغة العربية. احتل النظام المرتبة الثانية والعاشرة في المهام الفرعية ذات الصلة بتكشف السخرية وتحديد المعنويات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا