ترغب بنشر مسار تعليمي؟ اضغط هنا

سهولة: ملخص مبادرة الاستخراجية - إلى النهاية باستخدام مبدأ الاختناق المعلومات

EASE: Extractive-Abstractive Summarization End-to-End using the Information Bottleneck Principle

405   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتفوق أنظمة تلخيص التلخيص الحالية على نظرائهم المستخرجين، لكن اعتمادهم على نطاق واسع يمنعهم الافتقار المتأصل إلى الترجمة الشفوية. أنظمة تلخيص الاستخراجية، على الرغم من أنه قابل للتفسير، تعاني من التكرار وقلة الاتساق المحتمل. لتحقيق أفضل ما في العالمين، نقترح سهولة، وهو إطار خارجي - مبادرة ينشئ ملخصات إغراقية موجزة يمكن تتبعها مرة أخرى إلى ملخص مستخرج. يمكن تطبيق إطارنا على أي مشكلة توليد نصية قائمة على الأدلة ويمكن أن تستوعب النماذج المحددة مسبقا في بنية بسيطة. نستخدم مبدأ معلومات عنق المعلومات لتدريب الاستخلاص والتجريد المشترك في أزياء نهاية إلى نهاية. مستوحاة من البحث السابق الذي يستخدمه البشر إطارا من مرحلتين لتلخيص المستندات الطويلة (Jing و McKeown، 2000)، فإن إطار عملائنا أولا يستخرج كمية محددة مسبقا من الأدلة التي تمتد ثم يولد ملخصا باستخدام الأدلة فقط. باستخدام التقييمات التلقائية والبشرية، نوضح أن الملخصات التي تم إنشاؤها أفضل من خطوط الأساسيات الاستخراجية والاستخراجية الدخرية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تفترض أن معظم الدراسات السابقة حول حالة المعلومات (IS) تصنيف وتجسير التعرف anaphora أن ذكر الذهب أو معلومات شجرة النحوية يتم إعطاء (Hou et al.، 2013؛ Roesiger et al.، 2018؛ هو، 2020؛ يو ويوسيو، 2020) وبعد في هذه الورقة، نقترح نهج عصبي نهاية إلى نهج ل تصنيف حالة المعلومات. يتكون نهجنا من مكون استخراج الأوراق ومكون مهمة لحالة المعلومات. خلال وقت الاستدلال، يأخذ نظامنا نصا الخام حيث أن المدخلات ويولد يشرح مع وضع المعلومات الخاصة بهم. على Corpus Isnotes (Markert et al.، 2012)، نوضح أن مكون تعيين حالة معلوماتنا يحقق نتائج جديدة من الفنادق الجديدة على الحبيبات الجميلة التصنيف بناء على طلب الذهب. علاوة على ذلك، يؤدي نظامنا أفضل بكثير من خطوط الأساس الأخرى لكلا من الاستخراج والحبوب الدقيق التصنيف في الإعداد النهائي. أخيرا، نطبق نظامنا على باشي (Roesiger، 2018) و SCICORP (Roesiger، 2016) للتعرف على الحسارة المرجعية. نجد أن نظامنا المنتهي بنا مدروسا على ISNOT يحقق نتائج تنافسية بشأن تجسيد التعرف على الحساب مقارنة بالنظام السابق الذي يعتمد على معلومات النحوية وتدرب على مجموعات البيانات داخل المجال (YU و Poesio ، 2020).
تتمثل منطقة البحث الشعبية حاليا في الترجمة الانتهاء من الكلام في النهاية باستخدام تقنورة المعرفة من مهمة ترجمة آلية (MT) لتحسين مهمة ترجمة الكلام (ST).ومع ذلك، من الواضح أن مثل هذا السيناريو يسمح فقط بنقل طريقة واحدة، وهو محدود من أداء نموذج المعلم.ل ذلك، نحن فرضية أن الأساليب القائمة على تقطر المعرفة هي الأمثل.في هذه الورقة، نقترح بديلا - سيناريو تعليمي متبادل قابل للتدريب، حيث تم تدريب MT ونماذج ST بشكل تعاوني وتعتبر أقرانها، بدلا من المعلم / الطالب.هذا يسمح لنا بتحسين أداء الشك الواحد إلى نهاية أكثر فعالية من نموذج معلم طالب.كمنفعة جانبية، يتحسن أداء نموذج MT أيضا.تظهر النتائج التجريبية أنه في سيناريو التعلم المتبادل لدينا، يمكن أن تستخدم النماذج بشكل فعال المعلومات المساعدة من نماذج الأقران وتحقيق نتائج مقنعة على مجموعة بيانات MUST-C.
أحدثت النماذج المدربة (E2E) مؤخرا (E2E) لصالح الإجابة على الرسوم البيانية المعرفة (KGQA) نتائج واعدة تستخدم فقط مجموعة بيانات خاضعة للإشراف.ومع ذلك، يتم تدريب هذه النماذج وتقييمها في وضع يتم فيه توفير كيانات سؤال مشروح يدوية للنموذج، مما يترك المهمة المهمة وغير التافهة لقرار الكيان (ER) خارج نطاق تعلم E2E.في هذا العمل، نقوم بتوسيع حدود التعلم E2E ل KGQA لتضمين تدريب مكون ER.يحتاج النموذج الخاص بنا فقط إلى نص الأسئلة والكيانات الإجابة لتدريب، وتوفر نموذج ضمان الجودة المستقل لا يتطلب توفير مكون إضافي ER أثناء وقت التشغيل.نهجنا هو قابل له تماما، وذلك بفضل اعتماده على طريقة حديثة لبناء KGS الفائقة (كوهين وآخرون، 2020).نقوم بتقييم نموذج E2E المدربين على مجموعة بيانات عامين وإظهار أنه يقترب من النماذج الأساسية التي تستخدم الكيانات المشروح اليدوية.
غالبا ما ينطوي نظام استخراج المعلومات العالمي الحقيقي (IE) لصور وثيقة شبه منظمة أن خط أنابيب طويل من وحدات متعددة، مما يزيد تعقيده بشكل كبير من تكلفة التطوير والصيانة.يمكن للمرء بدلا من ذلك النظر في نموذج نهاية إلى نهاية يدري مباشرة المدخلات إلى الإخ راج المستهدف وتبسيط العملية بأكملها.ومع ذلك، يعرف نهج هذا الجيل أن يؤدي إلى أداء غير مستقر إذا لم يتم تصميمه بعناية.هنا نقدم جهدنا الأخير على الانتقال من نظام IE الحالي الذي يعتمد على خط الأنابيب إلى نظام نهاية إلى نهاية يركز على التحديات العملية المرتبطة باستبدال ونشر النظام في الإنتاج الحقيقي والنطاق على نطاق واسع.من خلال صياغة المستند بعناية أي مهمة توليد التسلسل، نوضح أن نظام IE نهاية واحدة إلى النهاية يمكن بناؤه ولا يزال يحقق الأداء المختص.
يدقق هذا البرنامج التعليمي أحدث التقدم التقني في التحليل النحوي ودور بناء الجملة في مهام معالجة اللغة الطبيعية المناسبة (NLP)، حيث يتمثل الترجمة الدلالية في الدورات الدلالية (SRL) والترجمة الآلية (MT) المهام التي لديهاكان دائما مفيدا من أدلة النحوية الإعلامية منذ فترة طويلة، على الرغم من أن التقدم من طرازات التعلم العميق المنتهي في النهاية يظهر نتائج جديدة.في هذا البرنامج التعليمي، سنقدم أولا الخلفية وأحدث التقدم المحرز في التحليل النحوي و SRL / NMT.بعد ذلك، سنلخص الأدلة الرئيسية حول التأثيرات النحوية على هذين المهامين المتعلقين، واستكشاف الأسباب وراء كل من الخلفيات الحسابية واللغوية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا