ترغب بنشر مسار تعليمي؟ اضغط هنا

استخراج المفاتيح مع بيانات التدريب المشروح غير مكتملة

Keyphrase Extraction with Incomplete Annotated Training Data

361   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد استخراج أجهزة القياسات الرائعة التي تلخص النقاط الرئيسية الوثيقة مهمة أساسية في معالجة اللغة الطبيعية.الأساليب الخاضعة للإشراف لاستخراج الصوت (KPE) تم تطويرها إلى حد كبير بناء على افتراض أن البيانات التدريبية مشروحة بالكامل.ومع ذلك، نظرا لصعوبة عبوات مفاتيح الصوت، تعاني نماذج KPE بشدة من مشكلة غير مشروعة غير كاملة في العديد من السيناريوهات.تحقيقا لهذه الغاية، نقترح طريقة تدريب أكثر قوة تتعلم التخفيف من سوء الخضوع الذي جلبه خطوط الرعاية القصوى غير المسبقة.نقدم أخذ العينات السلبية لضبط فقدان التدريب، وإجراء تجارب تحت سيناريوهات مختلفة.تظهر الدراسات التجريبية حول مجموعات البيانات الاصطناعية ومجموعات البيانات المفتوحة أن طرازنا قوي للمشكلة المشروحة غير المكتملة وتجاوز الأساس المسبق.تجارب واسعة على خمسة مجموعات بيانات مجال علمي من المقاييس المختلفة توضح أن طرازنا تنافس مع الطريقة التي من بين الفن.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الكلمات الرئيسية أو استخراج مفاتيح الصوت هي تحديد الكلمات أو العبارات التي تقدم الموضوعات الرئيسية للمستند.تقترح هذه الورقة الاهتمام، وهو نموذج انتباه هجين، لتحديد الرابط القصوى من وثيقة بطريقة غير مخالفة.تعاني Natheatrank حساب اهتمام الذات والاهتمام عبر النموذج اللغوي المدرب مسبقا.تم تصميم اهتمام الذات لتحديد أهمية المرشح في سياق الجملة.يتم احتساب الاعتماد المتبادل لتحديد الأهمية الدلالية بين المرشح والجمل في وثيقة.نحن نقيم الاهتمام بثلاث مجموعات بيانات متاحة للجمهور ضد سبعة خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط فيه.تظهر النتائج أن Natheationrank هو نموذج استخراج مفاتيح مفاتيح غير مؤظفي فعال وقوي على الوثائق الطويلة والقصيرة.يتوفر شفرة المصدر على Github.
تستخدم الأساليب القائمة على نطاق واسع على نطاق واسع لمهام استخراج مفاتيح المفاتيح غير المنشأة (UKE). بشكل عام، تقوم هذه الأساليب ببساطة بحساب أوجه التشابه بين Aregeddings و Award Action، وهو غير كاف لالتقاط سياق مختلف لنموذج UKE أكثر فعالية. في هذه ا لورقة، نقترح طريقة جديدة ل UKE، حيث يتم تصميم السياقات المحلية والعالمية بشكل مشترك. من وجهة نظر عالمية، نقوم بحساب التشابه بين عبارة معينة والوثيقة بأكملها في مساحة المتجهة كما نماذج تضمينها الانتقالية. من حيث الرأي المحلي، نقوم أولا ببناء هيكل رسم بياني يستند إلى المستند حيث تعتبر العبارات كأعلى رؤوس والحواف هي أوجه التشابه بين القمم. بعد ذلك، اقترحنا طريقة حساب مركزية جديدة لالتقاط المعلومات البارزة المحلية بناء على هيكل الرسم البياني. أخيرا، نكتف على نمذجة السياق العالمي والمحلي للتصنيف. نقوم بتقييم نماذجنا على ثلاثة معايير عامة (Inspec، DUC 2001، Semeval 2010) ومقارنتها مع النماذج الموجودة في أحدث النماذج. تظهر النتائج أن نموذجنا يفوق معظم النماذج أثناء التعميم بشكل أفضل على مستندات المدخلات ذات النطاقات والطول المختلفة. تظهر دراسة الاجتثاث الإضافية أن كل من المعلومات المحلية والعالمية أمر بالغ الأهمية لمهام استخراج المفاتيح غير المنشورة.
يؤدي استخراج الموجات القصيرة تلقائيا من المستندات العلمية إلى تمثيل موجز قيم يمكن أن يفهم البشر ويمكنهم معالجة الآلات للمهام، مثل استرجاع المعلومات، تجميع المقالات وتصنيف المادة.تهتم هذه الورقة بأجزاء مقالة علمية يجب أن تعطى كمدخلات لطرق استخراج الحر ارة.تأخذ أساليب التعلم العميق الحديثة الألقاب والملخصات كمدخلات بسبب زيادة التعقيد الحسابي في معالجة التسلسلات الطويلة، في حين أن الأساليب التقليدية يمكن أن تعمل أيضا مع النصوص الكاملة.العناوين والملخصات كثيفة في الجماهيرية، ولكن غالبا ما تفوت جوانب مهمة من المقالات، في حين أن النصوص الكاملة من ناحية أخرى أكثر ثراء في الجماهيرية ولكن الكثير من الضويرة.لمعالجة هذه المفاضلة، نقترح استخدام نماذج تلخيص الاستخراجية على النصوص الكاملة للمستندات العلمية.تظهر دراستنا التجريبية على 3 مجموعات مقالات باستخدام 3 طرق استخراج المفاتيح 3 نتائج واعدة.
حققت الترجمة الآلية العصبية غير الخاضعة للرقابة (UNMT) التي تعتمد فقط على Glassive Monolingual Corpora نتائج ملحوظة في العديد من مهام الترجمة.ومع ذلك، في سيناريوهات العالم الواقعي، لا توجد سورانيا أحادية الأبعاد الضخمة لبعض لغات الموارد المنخفضة للغا ية مثل أنظمة الإستونية، وعادة ما تؤدي أنظمة بعثة الأمم المتحدة في غرة الأبراج بشكل سيئ عندما لا يكون هناك كائنات تدريب كافية لغات واحدة.في هذه الورقة، نقوم أولا بتحديد وتحليل سيناريو البيانات التدريبية غير المتوازنة لإدارة بروتوكولية الكونغراف.استنادا إلى هذا السيناريو، نقترح آليات التدريب الذاتي لجهاز مكافآت لتدريب نظام INMT قوي وتحسين أدائها في هذه الحالة.تظهر النتائج التجريبية على العديد من أزواج اللغة أن الأساليب المقترحة تتفوق بشكل كبير على نظم التعطيب التقليدية.
نقدم معايير جديدة للكشف عن إعادة صياغة هذه اللغات الست في Corphrase Opusparcus Somprase: الإنجليزية والفنلندية والفرنسية والألمانية والروسية والسويدية.نصل إلى هذه الأساس عن طريق رصيد الرصيد.يتم تحقيق أفضل النتائج في مجموعات فرعية أصغر وأنظف من مجموعا ت التدريب مما لوحظ في البحث السابق.بالإضافة إلى ذلك، ندرس نهجا قائما للترجمة المنافسة للغات مع بيانات تدريبية أكثر محدودة وصاخبة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا