ترغب بنشر مسار تعليمي؟ اضغط هنا

Adaptsum: نحو تكيف مجال الموارد المنخفضة لتلخيص مبادرة

AdaptSum: Towards Low-Resource Domain Adaptation for Abstractive Summarization

294   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعتمد نماذج التلخيص المبخرية للحديث عن الفن بشكل عام على بيانات مسامحة واسعة النطاق، مما أدنى من قدرة تعميمها على المجالات التي لا تتوفر فيها هذه البيانات. في هذه الورقة، نقدم دراسة لتكييف المجال لمهمة تلخيص الجماع عبر ست مجالات مستهدفة متنوعة في إعداد الموارد المنخفضة. على وجه التحديد، نقوم بالتحقيق في المرحلة الثانية من التدريب المسبق على النماذج الإدارية على نطاق واسع تحت ثلاثة إعدادات مختلفة: 1) التدريب قبل التدريب مسبقا؛ 2) ما قبل التكيف مع المجال و 3) ما قبل التدرب في المهام. تشير التجارب إلى أن فعالية التدريب المسبق مرتبط مع التشابه بين بيانات ما قبل التدريب ومهمة المجال المستهدف. علاوة على ذلك، نجد أن التدريب المستمر المستمر يمكن أن يؤدي إلى النسيان الكارثي في ​​النموذج المدرب مسبقا، وسيلة التعلم ذات النسيان الأقل يمكن تخفيف هذه المشكلة. علاوة على ذلك، توضح النتائج أن الفجوة الضخمة لا تزال موجودة بين إعدادات الموارد المنخفضة والموارد عالية، والتي تبرز الحاجة إلى طرق تكيف مجال أكثر تقدما لمهمة تلخيص التلخيص.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تستكشف هذه الورقة تأثير استخدام التعلم المتعدد التواجد لتلخيص الجماع في سياق كورسا التدريب الصغيرة.على وجه الخصوص، نحن ندمج أربع مهام مختلفة (تلخيص استخراجي، ونمذجة اللغة، والكشف عن المفهوم، والكشف عن الصياغة على حد سواء بشكل فردي ومزيج، بهدف تعزيز ا لمهمة المستهدفة المتمثلة في تلخيص الجماع عبر التعلم المتعدد.نظرا لأنه بالنسبة للعديد من مجموعات المهام، فإن نموذج مدرب في إعداد متعدد الأيتاكف يتفوق على نموذج مدرب فقط في تلخيص الجماع، مع عدم تقديم بيانات تلخيص إضافية.بالإضافة إلى ذلك، نقوم بعمل بحث شامل والعثور على أن بعض المهام (E.G. الكشف عن الصياغة) تستفيد باستمرار تلخيص الجماعي، ليس فقط عند الجمع مع المهام الأخرى ولكن أيضا عند استخدام بهيئات مختلفة وتدريب كورسا.
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع ين، مما يؤدي إلى تأثير تأييد يزيد من حية معلومات المعلومات. في هذه الورقة، نقوم بالنماذج تأثير تأييد المستندات عبر المستندات واستخدامها في تلخيص مستندات متعددة. تقوم طريقتنا بإنشاء ملخص من كل مستند، والتي تعمل كموثوقية لتحديد المحتوى البارز من مستندات أخرى. يتم استخدام قطاعات نصية تم تأييدها بشدة لإثراء نموذج فك التشفير العصبي لتعزيزها في ملخص مبيعات. تتمتع هذه الطريقة بإمكانيات كبيرة للتعلم من أمثلة أقل لتحديد المحتوى البارزين، مما يخفف من الحاجة إلى إعادة تدريب مكلفة عند تعديل مجموعة المستندات بشكل حيوي. من خلال تجارب واسعة النطاق حول مجموعات بيانات تلخيص المستندات متعددة الوثائق القياسية، نوضح فعالية أسلوبنا المقترح على خطوط خطوط أساسية منشورة قوية. أخيرا، ألقينا الضوء على اتجاهات البحث في المستقبل ومناقشة تحديات أوسع من هذه المهمة باستخدام دراسة حالة.
أصبح أكبر انفجار أفضل في عدد المعلمات في الشبكات العصبية العميقة جعلته صعبة بشكل متزايد لجعل الشبكات الحديثة التي يمكن الوصول إليها في البيئات المقيدة لحسابها. أخذت تقنيات ضغط الأهمية المتجددة كوسيلة لسد الفجوة. ومع ذلك، فإن تقييم المفاضلات المتكبدة من خلال تقنيات الضغط الشعبية قد تركزت على مجموعات بيانات عالية الموارد. في هذا العمل، نعتبر بدلا من ذلك تأثير الضغط في نظام محدود من البيانات. نقدم مصطلح رابط مزدوج الموارد المنخفضة للإشارة إلى حدوث قيود البيانات ويحسب قيود الموارد. هذا هو إعداد شائع لبرنامج NLP لغات الموارد المنخفضة، ومع ذلك، تتم دراسة المفاضلات في الأداء بشكل سيء. يقدم عملنا رؤى مفاجئة في العلاقة بين القدرات والتعميم في الأنظمة المحدودة البيانات لمهمة الترجمة الآلية. تجاربنا على حجم تشذيب الترجمات من الإنجليزية إلى يوروبا، هاوسا، إغيبو وألماني تظهر أنه في أنظمة الموارد المنخفضة، تحافظ Sparsity على أداء على جمل متكررة ولكن لها تأثير متباين على النادر. ومع ذلك، فإنه يعمل على تحسين نوبات التوزيع، وخاصة بالنسبة لمجموعات البيانات المميزة للغاية عن توزيع التدريب. تشير نتائجنا إلى أن Sparsity يمكن أن تلعب دورا مفيدا في الحد من حفظ سمات التردد المنخفضة، وبالتالي يقدم حلا واعدا للربط المزدوج الموارد المنخفضة.
تلخيص الجماعي، مهمة توليد ملخص موجز لمستندات المدخلات، يتطلب: (1) التفكير في المستند المصدر لتحديد القطع البارزة من المعلومات المنتشرة عبر المستند الطويل، و (2) تأليف نص متماسك بإعادة بناء هذه الحقائق البارزة في ملخص أقصر يعكس بإخلاص العلاقات المعقدة التي تربط هذه الحقائق. في هذه الورقة، نتكيف مع TP-Transformer (Schlag et al.، 2019)، وهي عبارة عن بنية تثري المحولات الأصلية (Vaswani et al.، 2017) مع تمثيل المنتج التركيبي الصريح للتوتر (TPR)، لمهمة التلخيص المبشور وبعد الميزة الرئيسية لطرازنا هي التحيز الهيكلي الذي نقدمه من خلال ترميز مجموعتين منفصلين لكل رمزي لتمثيل الهيكل النحوي (مع ناقلات الدور) والمحتوى الدلالي (مع ناقلات حشو) بشكل منفصل. ثم يربط النموذج ثم متجاهلة الدور والحشو إلى TPR كإخراج الطبقة. نقول أن التمثيلات الوسيطة المنظمة تمكن النموذج من السيطرة بشكل أفضل على المحتويات (الحقائق البارزة) والهياكل (بناء الجملة الذي يربط الحقائق) عند إنشاء الملخص. وإظهار تجريبيا، نظرا لأن لدينا TP-Transforment تفوقنا على المحول ومحول TP الأصلي بشكل كبير على العديد من مجموعات بيانات تلخيص الجماع على حد سواء التقييمات التلقائية والإنسانية. في العديد من المهام التحقيق النحوية واللالسة، نوضح المعلومات الهيكلية الناشئة في مجاهاجر الدور واكتساب الأداء من خلال خصوصية المعلومات من مواقف الدور وتحسين الترجمة الترجمة الترجمة النحوية في مخرجات طبقة TPR. (التعليمات البرمجية المتاحة في HTTPS: // github.com/jianggyctarheel/tpt-summ)
اكتسبت أنظمة تلخيص الجماع العصبي تقدما كبيرا في السنوات الأخيرة.ومع ذلك، غالبا ما تنتج تلخيص التلوث في كثير من الأحيان بيانات غير متناسقة أو حقائق كاذبة.كيفية توليد الملخصات التجريدية بشكل كبير تلقائيافي هذه الورقة، اقترحنا نهجا فعالا معزز بيانات تكب ير البيانات الفعالة لتشكيل مجموعة بيانات الاتساق الواقعية.بناء على مجموعة البيانات الاصطناعية، ندرب نموذجا للتقييم التي لا يمكن أن تجعل تمييز التناسق الواقعي الدقيق والقوي فحسب، بل قادرا أيضا على جعل الأخطاء الواقعية القابلة للتفسير تتبعها توزيع التدرج السابق على توزيع الرمز المميز.توضح إجراء التجارب والتحليل في ملخصات التلخيص المشروح العام ومجموعات بيانات الاتساق واقعية نهجنا فعال ومعقول.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا