مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

الاستكشاف الأساسي لمقاييس التقييم لخصائص الشخصيات من النصوص النصية

Fundamental Exploration of Evaluation Metrics for Persona Characteristics of Text Utterances

204 0 0 0.0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جمعية اللغويات الحاسوبية ACL مقالة

تاريخ النشر 2021

مجال البحث الذكاء الاصناعي

والبحث باللغة English

تمت اﻹضافة من قبل Shamra Editor

fundamental exploration text utterances persona characteristics الاستكشاف الأساسي النص الكلام خصائص الشخصية صناعة حمض الفوسفور

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

للحفاظ على جودة الكلام لنظام الحوار إدراك شخصي، يجب تصفية الكلام غير اللائقة للشخصية بدقة. عند تقييم مدى ملاءمة عدد كبير من الكلام التعسفي الذي سيتم تسجيله في قاعدة بيانات الكلام لنظام حوار استرجاع يستند إلى استرجاع، لا يمكن استخدام مقاييس التقييم التي تتطلب مرجعا (أو الكلام "الصحيح) لكل هدف تقييم. بالإضافة إلى ذلك، يتطلب تصفية الكلام العملي القدرة على اختيار الكلام بناء على شدة خصائص الشخص. لذلك، نقوم بتطوير مقاييس يمكن استخدامها لالتقاط شدة خصائص الشخص ويمكن حسابها دون مراجع مصممة على أهداف التقييم. تحقيقا لهذه الغاية، نستكشف المقاييس الموجودة واقتراح مقاييس جديدة: احتمال مكبر الصوت شخصيا وشخصية الشخص. تظهر النتائج التجريبية أن مقاييسنا المقترحة تظهر ضعيفة على الارتباطات المعتدلة بين عشرات خصائص الشخصية القائمة على الأحكام الإنسانية وتتفوق مقاييس أخرى بشكل عام في تصفية الكلام غير اللائق لشخصية معينة.

المراجع المستخدمة

https://aclanthology.org/

قيم البحث

263 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

مجردة تم تحديد نوعية تقييم تقييم التلخيص من خلال حساب الارتباط بين درجاته والشروح البشرية عبر عدد كبير من الملخصات. في الوقت الحالي، من غير الواضح مدى دقة تقديرات الارتباط هذه، ولا عما إذا كانت الاختلافات بين علاقات المقاييس تعكس فرقا حقيقيا أو إذا ك ان من المقرر أن مجرد فرصة. في هذا العمل، نتعامل مع هاتين المشكلتين من خلال اقتراح طرق لحساب فترات الثقة وتشغيل اختبارات الفرضية للترشيح باستخدام أساليب إعادة التقييد والنساء التمهيد والتلبيل. بعد تقييم أي من الأساليب المقترحة هو الأنسب للتلخيص من خلال تجربتي المحاكاة، نحلل نتائج تطبيق هذه الأساليب إلى العديد من مقاييس التقييم التلقائي المختلفة عبر ثلاث مجموعات من التعليقات الشروحية البشرية. نجد أن فترات الثقة هي واسعة إلى حد ما، مما يدل على عدم اليقين العالي في موثوقية المقاييس التلقائية. علاوة على ذلك، على الرغم من أن العديد من المقاييس يفشل في إظهار التحسينات الإحصائية على Rouge، فإن اثنين من الأعمال الأخيرة، Qaeval و Bertscore، تفعل ذلك في بعض إعدادات التقييم

مجموعات البيانات الإنجليزية الحالية summarization evaluation summarization evaluation metrics تقييم تلخيص مقاييس تقييم تلخيص صناعة حمض الفوسفور

التقييم عبر الإنترنت للترجمة النصية من قبل المستخدمين النهائيين الصم: بعض التوصيات المنهجية (ورقة قصيرة)

189 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

نقدم عددا من التوصيات المنهجية المتعلقة بالتقييم عبر الإنترنت للأفيستار للترجمة النصية للإحداث النصي، مع التركيز على هيكل واستبيان وطول الاستبيان، وكذلك طرق إفرازات الردود وإخلاص

deaf end users end users deaf end المستخدمين النهائيين الصم المستخدمين النهائيين نهاية الصم صناعة حمض الفوسفور المزيد..

AstitchinlanguageModels: DataSet وطرق الاستكشاف عن الاصطلاحية في نماذج اللغة المدربة مسبقا

200 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

على الرغم من نجاحها في مجموعة متنوعة من مهام NLP، فإن نماذج اللغة المدربة مسبقا، بسبب اعتمادها الشديد على التركيز، تفشل في التقاط بفعالية معاني تعبيرات الكلمات المتعددة (MWES)، وخاصة التعابير. لذلك، هناك حاجة ماسة إلى مجموعات البيانات والأساليب لتحسي ن تمثيل MWES. تقتصر مجموعات البيانات الحالية على توفير درجة اعتبني التعبيرات مع الترجمة الحرفية، عند الاقتضاء، (واحدة)، ترجمة غير حرفية من MWES. يقدم هذا العمل مجموعة بيانات جديدة من الجمل التي تحدث بشكل طبيعي تحتوي على MWES المصنفة يدويا في مجموعة من المعاني المحبوبة بشكل جيد، تمتد من الإنجليزية والبرتغالية. نحن نستخدم هذه البيانات في مهام اثنين مصممة لاختبار I) قدرة نموذج اللغة على الكشف عن استخدام المصطلح، والثاني) فعالية نموذج اللغة في توليد تمثيلات الجمل التي تحتوي على التعريفات التعريفية. توضح تجاربنا أنه، في مهمة الكشف عن الاستخدام الاصطلاعي، تؤدي هذه النماذج بشكل جيد بشكل معقول في السيناريوهات ذات الطابع القليلة، لكن هناك مجالا كبيرا للتحسين في سيناريو الصفر بالرصاص. فيما يتعلق بمهمة التمثيل الاصطلاحية، نجد أن التدريب المسبق ليس فعالا دائما، في حين أن الضبط الدقيق يمكن أن توفر طريقة فعالة للعينة من تمثيلات التعلم للجمل التي تحتوي على mwes.

أوصاف الصورة صناعة حمض الفوسفور

تعليمي على مقاييس التقييم المستخدمة في توليد اللغة الطبيعية

344 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

إن ظهور التعلم العميق وتوافر مجموعات البيانات الكبيرة على نطاق واسع قد تسريع البحوث حول توليد اللغة الطبيعية مع التركيز على المهام الأحدث والنماذج الأفضل. مع تقدم سريع هذا، من الضروري تقييم مدى التقدم العلمي المحرز وتحديد المجالات / المكونات التي تحت اج إلى تحسين. لإنجاز ذلك بطريقة تلقائية وموثوقة، اتبع مجتمع NLP بنشاط تطوير مقاييس التقييم التلقائي. خاصة في السنوات القليلة الماضية، كان هناك تركيز متزايد على مقاييس التقييم، مع العديد من الانتقادات للمقاييس والمقترحات الحالية لعدة مقاييس جديدة. يقدم هذا البرنامج التعليمي تطور مقاييس التقييم التلقائي إلى حالتها الحالية إلى جانب الاتجاهات الناشئة في هذا المجال من خلال معالجة الأسئلة التالية على وجه التحديد: (I) ما الذي يجعل تقييم NLG صعبة؟ (2) لماذا نحتاج إلى مقاييس التقييم التلقائي؟ (3) ما هي مقاييس التقييم التلقائية الحالية وكيف يمكن تنظيمها في تصنيف متماسك؟ (4) ما هي الانتقادات وأوجه القصور في المقاييس الموجودة؟ (5) ما هي الاتجاهات المستقبلية المحتملة للبحث؟

الرسم البياني الشبكات العصبية صناعة حمض الفوسفور

تودا-استسعة @ Reprogen: إعادة التقرير من التقييم البشري لجيل النص إلى النص إلى النص

751 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب يانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.

تمرير كرة القدم باللغة الهولندية shared task reprogen human evaluation مهمة مشتركة التقييم البشري صناعة حمض الفوسفور

الأسئلة المقترحة

شرح تقنية التعرف على الصوت Voice Recognition

1417 - 0 - - تم طرحه بمساحة (الذكاء الاصناعي)

التعرف على الصوت التعرف على الكلام التعرف على الكلام التلقائي

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

جامعة الإتحاد الخاصة

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

الاستكشاف الأساسي لمقاييس التقييم لخصائص الشخصيات من النصوص النصية

Fundamental Exploration of Evaluation Metrics for Persona Characteristics of Text Utterances

اسأل ChatGPT حول البحث

اقرأ أيضاً

الأسئلة المقترحة