ترغب بنشر مسار تعليمي؟ اضغط هنا

الاستكشاف الأساسي لمقاييس التقييم لخصائص الشخصيات من النصوص النصية

Fundamental Exploration of Evaluation Metrics for Persona Characteristics of Text Utterances

115   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

للحفاظ على جودة الكلام لنظام الحوار إدراك شخصي، يجب تصفية الكلام غير اللائقة للشخصية بدقة. عند تقييم مدى ملاءمة عدد كبير من الكلام التعسفي الذي سيتم تسجيله في قاعدة بيانات الكلام لنظام حوار استرجاع يستند إلى استرجاع، لا يمكن استخدام مقاييس التقييم التي تتطلب مرجعا (أو الكلام "الصحيح) لكل هدف تقييم. بالإضافة إلى ذلك، يتطلب تصفية الكلام العملي القدرة على اختيار الكلام بناء على شدة خصائص الشخص. لذلك، نقوم بتطوير مقاييس يمكن استخدامها لالتقاط شدة خصائص الشخص ويمكن حسابها دون مراجع مصممة على أهداف التقييم. تحقيقا لهذه الغاية، نستكشف المقاييس الموجودة واقتراح مقاييس جديدة: احتمال مكبر الصوت شخصيا وشخصية الشخص. تظهر النتائج التجريبية أن مقاييسنا المقترحة تظهر ضعيفة على الارتباطات المعتدلة بين عشرات خصائص الشخصية القائمة على الأحكام الإنسانية وتتفوق مقاييس أخرى بشكل عام في تصفية الكلام غير اللائق لشخصية معينة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مجردة تم تحديد نوعية تقييم تقييم التلخيص من خلال حساب الارتباط بين درجاته والشروح البشرية عبر عدد كبير من الملخصات. في الوقت الحالي، من غير الواضح مدى دقة تقديرات الارتباط هذه، ولا عما إذا كانت الاختلافات بين علاقات المقاييس تعكس فرقا حقيقيا أو إذا ك ان من المقرر أن مجرد فرصة. في هذا العمل، نتعامل مع هاتين المشكلتين من خلال اقتراح طرق لحساب فترات الثقة وتشغيل اختبارات الفرضية للترشيح باستخدام أساليب إعادة التقييد والنساء التمهيد والتلبيل. بعد تقييم أي من الأساليب المقترحة هو الأنسب للتلخيص من خلال تجربتي المحاكاة، نحلل نتائج تطبيق هذه الأساليب إلى العديد من مقاييس التقييم التلقائي المختلفة عبر ثلاث مجموعات من التعليقات الشروحية البشرية. نجد أن فترات الثقة هي واسعة إلى حد ما، مما يدل على عدم اليقين العالي في موثوقية المقاييس التلقائية. علاوة على ذلك، على الرغم من أن العديد من المقاييس يفشل في إظهار التحسينات الإحصائية على Rouge، فإن اثنين من الأعمال الأخيرة، Qaeval و Bertscore، تفعل ذلك في بعض إعدادات التقييم
نقدم عددا من التوصيات المنهجية المتعلقة بالتقييم عبر الإنترنت للأفيستار للترجمة النصية للإحداث النصي، مع التركيز على هيكل واستبيان وطول الاستبيان، وكذلك طرق إفرازات الردود وإخلاص
على الرغم من نجاحها في مجموعة متنوعة من مهام NLP، فإن نماذج اللغة المدربة مسبقا، بسبب اعتمادها الشديد على التركيز، تفشل في التقاط بفعالية معاني تعبيرات الكلمات المتعددة (MWES)، وخاصة التعابير. لذلك، هناك حاجة ماسة إلى مجموعات البيانات والأساليب لتحسي ن تمثيل MWES. تقتصر مجموعات البيانات الحالية على توفير درجة اعتبني التعبيرات مع الترجمة الحرفية، عند الاقتضاء، (واحدة)، ترجمة غير حرفية من MWES. يقدم هذا العمل مجموعة بيانات جديدة من الجمل التي تحدث بشكل طبيعي تحتوي على MWES المصنفة يدويا في مجموعة من المعاني المحبوبة بشكل جيد، تمتد من الإنجليزية والبرتغالية. نحن نستخدم هذه البيانات في مهام اثنين مصممة لاختبار I) قدرة نموذج اللغة على الكشف عن استخدام المصطلح، والثاني) فعالية نموذج اللغة في توليد تمثيلات الجمل التي تحتوي على التعريفات التعريفية. توضح تجاربنا أنه، في مهمة الكشف عن الاستخدام الاصطلاعي، تؤدي هذه النماذج بشكل جيد بشكل معقول في السيناريوهات ذات الطابع القليلة، لكن هناك مجالا كبيرا للتحسين في سيناريو الصفر بالرصاص. فيما يتعلق بمهمة التمثيل الاصطلاحية، نجد أن التدريب المسبق ليس فعالا دائما، في حين أن الضبط الدقيق يمكن أن توفر طريقة فعالة للعينة من تمثيلات التعلم للجمل التي تحتوي على mwes.
إن ظهور التعلم العميق وتوافر مجموعات البيانات الكبيرة على نطاق واسع قد تسريع البحوث حول توليد اللغة الطبيعية مع التركيز على المهام الأحدث والنماذج الأفضل. مع تقدم سريع هذا، من الضروري تقييم مدى التقدم العلمي المحرز وتحديد المجالات / المكونات التي تحت اج إلى تحسين. لإنجاز ذلك بطريقة تلقائية وموثوقة، اتبع مجتمع NLP بنشاط تطوير مقاييس التقييم التلقائي. خاصة في السنوات القليلة الماضية، كان هناك تركيز متزايد على مقاييس التقييم، مع العديد من الانتقادات للمقاييس والمقترحات الحالية لعدة مقاييس جديدة. يقدم هذا البرنامج التعليمي تطور مقاييس التقييم التلقائي إلى حالتها الحالية إلى جانب الاتجاهات الناشئة في هذا المجال من خلال معالجة الأسئلة التالية على وجه التحديد: (I) ما الذي يجعل تقييم NLG صعبة؟ (2) لماذا نحتاج إلى مقاييس التقييم التلقائي؟ (3) ما هي مقاييس التقييم التلقائية الحالية وكيف يمكن تنظيمها في تصنيف متماسك؟ (4) ما هي الانتقادات وأوجه القصور في المقاييس الموجودة؟ (5) ما هي الاتجاهات المستقبلية المحتملة للبحث؟
تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب يانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا