ترغب بنشر مسار تعليمي؟ اضغط هنا

العثور على درجة متوازنة من الأتمتة لتقييم الموجز

Finding a Balanced Degree of Automation for Summary Evaluation

178   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التقييم البشري لمهام التلخيص موثوقة ولكن يجلب قضايا التكاثر والتكاليف العالية. المقاييس التلقائية رخيصة وغير قابلة للتكرار ولكن في بعض الأحيان ترتبط بشكل سيء بحكمات بشرية. في هذا العمل، نقترح Nemiautomatic مرنة لمقاييس التقييم الموجز التلقائي، بعد طريقة التقييم البشري الهرم. يحتفظ Lite2Pyramid شبه التلقائي بوحدات المحتوى الموجزة ذات العلامة البشرية القابلة لإعادة الاستخدام (SCU) للإشارة (SCU)، لكنها تحل محل العمل اليدوي للحكم على وجود قاضم في ملخصات النظام مع نموذج استنتاج اللغة الطبيعية (NLI). تستبدل Lite3pyramid التلقائي بالكامل مزيد من البدائل SCUS مع الوحدات الثلاثية الدلالية المستخرجة تلقائيا (STUS) عبر نموذج العلامات الدلالية (SRL). أخيرا، نقترح مقاييس، Lite2.xpyramid، حيث نستخدم نموذجا بسيطا للتنبؤ بمدى محاكاة STUS محاكاة SCUS والاحتفاظ ب SCUs الأكثر صعوبة في محاكاة، والتي توفر عملية انتقال سلسة وتوازن بين الأتمتة والتقييم اليدوي وبعد مقارنة 15 مقاييس موجودة، نقوم بتقييم الارتباطات المترية البشرية على 3 مجموعات بيانات تقييم التلوث الحالية و Pyrxsum التي تم جمعها حديثا (مع أمثلة / أنظمة / أنظمة 100/10 XSUM). يظهر أن Lite2Pyramid لديها باستمرار أفضل الارتباطات على مستوى الملخص؛ يعمل Lite3pyramid بشكل أفضل من أو قابلة للمقارنة مع مقاييس أوتوماتيكية أخرى؛ يتداول Lite2.XPyramID قبالة قطرات الارتباط الصغيرة لخفض الجهد اليدوي الأكبر، والتي يمكن أن تقلل من تكاليف جمع البيانات المستقبلية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تتطلب العديد من التطبيقات توليد ملخصات مصممة خصيصا لاحتياجات معلومات المستخدم، أي نواياها. الأساليب التي تعبر عن النية عبر استعلامات المستخدم الصريحة تسقط قصيرة عند التفسير الاستعلام هو شخصي. توجد عدة مجموعات من مجموعات البيانات للتخصيص مع النوايا ال موضوعية حيث، لكل وثيقة ونوايا (E.G.، Weather ")، تكفي موجز واحد لجميع المستخدمين. لا توجد مجموعات البيانات، ومع ذلك، بالنسبة للمؤلفة الذاتية (E.G.، الأماكن المثيرة للاهتمام ") حيث سيقدم المستخدمون المختلفون ملخصات مختلفة. نحن نقدم العانة، أول مجموعة البيانات لتقييم أنظمة استخراج الملخص الذاتي. تحتوي STALUME على ثلاثة أفراد (وثيقة، نية، ملخص) ثلاثة توائم أكثر من 48 صفحة ويكيبيديا، مع عشرة نوبة ذاتي اختلاف ذاتي، والتي توفرها 103 فردا على الترك الميكانيكي. نوضح إحصائيا أن النوايا في SARMENT تختلف بشكل منهجي في الذاتية. للإشارة إلى فائدة SUTTUME، نستكشف مجموعة من خوارزميات أساسية لتلخيص استخراجي ذاتي وإظهار أن (I) كما هو متوقع، فإن النهج القائمة على سبيل المثال، من الأفضل أن تلتقط النوايا ذاتية من تلك القائمة على الاستعلام، و (2) هناك نطاق واسع لتحسينه خوارزميات الأساس، وبالتالي تحفز المزيد من الأبحاث حول هذه المشكلة الصعبة.
تضمين الجملة تشفير المعلومات المتعلقة باستخدام التعابير في جملة.تقارير هذه الورقة مجموعة من التجارب التي تجمع بين المنهجية التحقيق مع اخفاء المدخلات لتحليل مكان وجود هذه المعلومات الاصطلاحية هذه، وما شكله.تشير نتائجنا إلى أن المفتاح الاصطلاعي لمصدر ب يرت موجود في المقام الأول داخل تعبير اصطلاحي، ولكنه يرسم أيضا معلومات من السياق المحيط.أيضا، يستطيع بيرت التمييز بين الاضطراب في جملة ناتجة عن الكلمات المفقودة والتعارض الناتج عن الاستخدام الاصطلاعي.
تحتوي الوثائق العلمية على درجة كبيرة من الاختلاف، سواء من حيث المحتوى (الدلالات) والهيكل (البراغماتية). تؤكد العمل المسبق في الوثيقة العلمية التفاهم على دلالات من خلال تلخيص المستندات ونمذجة موضوع Corpus ولكن تميل إلى حذف البراغماتية مثل تنظيم الوثائ ق وتدفقها. باستخدام مجموعة من الوثائق العلمية عبر 19 تخصصات وتقنيات النمذجة باللغة الحديثة، نتعلم مجموعة ثابتة من واصفات المجال الأذرع لمقاطع المستندات وإعادة التحديث "" The Corpus إلى هذه الواصفات (يشار إليها أيضا باسم "التطبيع" '). بعد ذلك، نقوم بتحليل موقف وطلب هذه الواصفات عبر المستندات لفهم العلاقة بين الانضباط والهيكل. نبلغ عن ضمنيات الأنماط الهيكلية داخل الانضباط، وتقليل التباينات، وبين الإصابة، ودعم الفرضية التي تشترك فيها المجتمعات العلمية، على الرغم من حجمها، وتنوعها، واتساعها، مشترك في طرق مماثلة للتعبير عن عملها. تضع نتائجنا الأساس للعمل في المستقبل في تقييم جودة البحث ونقل نمط المجال، وعمليات التحليل العملي.
مجردة ملكية مرغوبة لمتري التقييم المرجعي تقيس جودة محتوى الملخص هو أنه ينبغي أن يقدر مقدار المعلومات التي لدى الملخص مشتركا مع مرجع. لا يتداخل النص التقليدي المقاييس المستندة إلى النص مثل Rouge لتحقيق ذلك لأنهم يقتصرون على مطابقة الرموز، إما متعمدة أ و عبر Embeddings. في هذا العمل، نقترح متريا لتقييم جودة المحتوى الخاص بملخص باستخدام الإجابة على الأسئلة (QA). تقيس الأساليب المستندة إلى ضمان الجودة مباشرة معلومات الملخص تتداخل مع مرجع، مما يجعلها مختلفة بشكل أساسي عن مقاييس تداخل النص. نوضح الفوائد التجريبية للمقاييس القائم على ضمان الجودة من خلال تحليل لميبري مقترح، Qaeval. تتفوق Qaeval على مقاييس حديثة حديثة على معظم التقييمات باستخدام مجموعات البيانات القياسية، في حين أن تكون قادرة على المنافسة على الآخرين بسبب قيود النماذج الحديثة. من خلال تحليل دقيق لكل مكون من مكونات Qaeval، نحدد اختناقات أدائها وتقدير أن أدائها المحتمل للأعلى من المحتمل يفوق جميع المقاييس التلقائية الأخرى، مما يقترب من طريقة الهرم الذهبي القياسي
تتمثل النهج المهيمن في التحقيق في الشبكات العصبية للعقارات اللغوية في تدريب Perceptron متعدد الطبقات الضحلة (MLP) على رأس التمثيلات الداخلية للنموذج. يمكن لهذا النهج اكتشاف الخصائص المشفرة في النموذج، ولكن بتكلفة إضافة معلمات جديدة قد تتعلم المهمة مب اشرة. نقترح بدلا من ذلك، حيث نقترح مسبارا شبه جذاب، حيث نجد شبكة فرعية حالية تؤدي المهمة اللغوية المصالحة. بالمقارنة مع MLP، تحقق مسبار الشبكة الفرعية كلتا الدقة العليا على النماذج المدربة مسبقا ودقة منخفضة على النماذج العشوائية، لذلك فهي أفضل في العثور على خصائص ذات أهمية وأسوأ من التعلم بمفردها. بعد ذلك، من خلال اختلاف تعقيد كل مسبار، نوضح أن التحقيق في الشبكة الفرعية التي يسيطر عليها البريتو - يحقق في تحقيق الدقة العليا التي تحقق أي ميزانية تعقيد التحقيق. أخيرا، نقوم بتحليل شبكات فرعية الناتجة الناتجة في مختلف المهام لتحديد مكان ترميز كل مهمة، ونتجد أن المهام ذات المستوى الأدنى يتم التقاطها في طبقات أقل، إعادة إنتاج نتائج مماثلة في العمل الماضي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا