ترغب بنشر مسار تعليمي؟ اضغط هنا

ESTIME: تقدير عدم تناسق الملخص إلى النص عن طريق المغايات المدمجة

ESTIME: Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings

198   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقترح إجراء تقييم جودة خاص بالرجوع إلى مرجعية، مع التركيز على الإخلاص.يعتمد الإجراء على إيجاد وعد جميع التناقضات المحتملة المحتملة في الملخص فيما يتعلق بالوثيقة المصدر.يرتبط مؤشر الإستيم المقترح ومقدر عدم تناسق الملخص من خلال المدينات غير المعطاة بدرجات الخبراء في مجموعة بيانات STOMEVAL للمستوى الملخص أقوى من تدابير التقييم المشتركة الأخرى ليس فقط في الاتساق ولكن أيضا في الطلاقة.نقدم أيضا طريقة لتوليد أخطاء واقعية خفية في ملخصات بشرية.نظهر أن ESTIME أكثر حساسية للأخطاء الدقيقة من تدابير التقييم المشتركة الأخرى.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح معالجة مهام توليد البيانات إلى النص عن طريق الربط مباشرة من جانب شرائح النص من الأزواج المستهدفة من الجيران.على عكس العمل الحديث الذي تقوم بالشروط على الجيران المسترجع ولكن يولد رمزا نصي نصي، من اليسار إلى اليمين، نتعلم السياسة التي تتعامل مباش رة على شرائح النص الجار، عن طريق إدخال أو استبدالها بأجيال مبنية جزئيا.تتطلب التقنيات القياسية للتدريب مثل هذه السياسة عن اشتقاق أوراكل لكل جيل، ونثبت أن العثور على أقصر مثل هذا الاشتقاق يمكن تخفيضها إلى التحليل تحت قواعد محددة معينة خالية من السياق.نجد أن السياسات المستفادة بهذه الطريقة تؤدي على قدم المساواة مع خطوط أساس قوية من حيث التقييم التلقائي والبشري، ولكن السماح لمزيد من الجيل القابل للتفسير والتحكم.
أن تكون قادرا على أداء تقدير صعوبة الأسئلة بدقة (QDE) تحسين دقة تقييم الطلاب وتحسين تجربة التعلم. الأساليب التقليدية إلى QDE هي إما ذاتية أو إدخال تأخير طويل قبل أن يتم استخدام أسئلة جديدة لتقييم الطلاب. وبالتالي، اقترح العمل الأخير النهج القائم على التعلم في التعلم للتغلب على هذه القيود. يستخدمون أسئلة من صعوبة معروفة لتدريب النماذج القادرة على استنتاج صعوبة الأسئلة من نصها. بمجرد التدريب، يمكن استخدامها لأداء QDE من الأسئلة التي تم إنشاؤها حديثا. توفر الأساليب الحالية النماذج الخاضعة للإشراف والتي تعتمد على نطاق ومتطلبات مجموعة بيانات كبيرة من الأسئلة المعروفة للتدريب. لذلك، لا يمكن استخدامها إذا كانت هذه البيانات غير متوفرة (للدورات الجديدة على منصة التعلم الإلكتروني). في هذا العمل، نقوم بتجربة إمكانية أداء QDE من النص بطريقة غير منشأة. على وجه التحديد، نستخدم عدم اليقين من الأسئلة المعايرة في الرد النماذج كوكيل للصعوبة المتصورة للإنسان. تظهر تجاربنا نتائج واعدة، مما يشير إلى أن عدم اليقين النموذجي يمكن الاستفادة بنجاح لأداء QDE من النص، مما يقلل من كل من التكاليف والوقت المنقضي.
مع وجود شعبية متزايدة للمتحدثين الذكية، مثل الأمازون اليكسا، أصبح الكلام أحد أهم طرق التفاعل بين الإنسان والحاسوب. يمكن القول إن التعرف التلقائي على التعرف على الكلام (ASR) هو العنصر الأكثر أهمية في هذه الأنظمة، حيث ينتشر أخطاء في التعرف على الكلام إ لى مكونات المصب التي تتحلل بشكل كبير من تجربة المستخدم. طريقة بسيطة وفعالة لتحسين دقة التعرف على الكلام هي تطبيق ما بعد المعالج التلقائي نتيجة التعرف. ومع ذلك، فإن التدريب على معالج ما بعد البيع يتطلب شركة موازية تم إنشاؤها بواسطة Annwotators البشرية، وهي مكلفة وغير قابلة للتحجيم. لتخفيف هذه المشكلة، نقترح النسخ الخلفي (BTS)، وهي طريقة قائمة على الدنيوية التي يمكن أن تنشئ مثل هذه الشركة دون عمل بشري. باستخدام CORPUS RAW، يقوم BTS بتلف النص باستخدام أنظمة تحويل النص إلى كلام (TTS) ونص الكلام إلى النص (STT). بعد ذلك، يمكن تدريب نموذج ما بعد المعالجة على إعادة بناء النص الأصلي مع إعطاء المدخلات التالفة. تبين التقييمات الكمية والنوعية أن المعالج بعد المعالج المدرب باستخدام نهجنا فعال للغاية في إصلاح أخطاء التعرف على الكلام غير تافهة مثل سوء الكلمات الأجنبية. نقدم Corpus الموازي الذي تم إنشاؤه ومنصة ما بعد المعالجة لجعل نتائجنا متاحة للجمهور.
تركز العديد من النهج الحالية لتفسير نماذج تصنيف النص على توفير الأهمية عشرات لأجزاء من نص الإدخال، مثل الكلمات، ولكن دون أي طريقة لاختبار أو تحسين طريقة التفسير نفسها. هذا له تأثير مزعج مشكلة فهم أو بناء الثقة في النموذج، مع طريقة التفسير نفسها إضافة إلى عتامة النموذج. علاوة على ذلك، فإن العشرات الأهمية حول الأمثلة الفردية عادة ما تكون لا تكفي لتوفير صورة كافية من السلوك النموذجي. لمعالجة هذه المخاوف، نقترح Moxie (تأثير النمذجة الحساسة للكلمات) بهدف تمكين واجهة أكثر ثراء للمستخدم للتفاعل مع النموذج الذي يتم تفسيره وإنتاج تنبؤات قابلة للإصابة. على وجه الخصوص، نهدف إلى تقديم تنبؤات لعشرات الأهمية والمعدات المضادة والتحيزات المستفادة مع Moxie. بالإضافة إلى ذلك، مع هدف التعلم العالمي، يوفر Moxie مسارا واضحا لاختبار وتحسين نفسها. نقيم موثوقية وكفاءة Moxie على مهمة تحليل المعنويات.
نقوم بإصدار Gesera، وهي نسخة محسنة مفتوحة المصدر من SERA لتقييم الملخصات الاستخراجية والتغييرات التلقائية من المجال العام. تعتمد SERA على محرك بحث يقارن الملخصات المرشحة والمرجعية (تسمى الاستعلامات) مقابل قاعدة مستندات استرجاع المعلومات (تسمى المؤشر) . تم تصميم Sera في الأصل للنطاق الطبي الطبيعي فقط، حيث أظهرت ارتباطا أفضل مع الأساليب اليدوية من طريقة Rouge المستندة إلى المعجمات المستخدمة على نطاق واسع. في هذه الورقة، نأخذ سيرا من المجال الطبي الطبيعي إلى عام واحد من خلال تكييف أسلوبها القائم على المحتوى لتقييم الملخصات بنجاح من المجال العام. أولا، نحسن استراتيجية إعادة صياغة الاستعلام مع تحليل علامات نقاط البيع لعوريا المجال العام. ثانيا، نستبدل المؤشر الطبي الحيوي المستخدم في سيرا بمجموعات مقالة مقالة من مادتين ويكيبيديا. نحن نقوم بإجراء تجارب مع مجموعات بيانات TAC2008 و TAC2009 و CNNDM. تظهر النتائج أنه في معظم الحالات، تحقق Gesera ارتباطا أعلى مع أساليب التقييم اليدوي من SERA، بينما يقلل من فجوا لها مع Rouge for General-Domain Definuation. حتى gesera حتى يتجاوز الحمر في حالتين من TAC2009. أخيرا، نقوم بإجراء تجارب مكثفة وتوفير دراسة شاملة لتأثير الحنجرة البشرية وحجم المؤشر على التقييم الموجز مع SERA و GESERA.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا