ترغب بنشر مسار تعليمي؟ اضغط هنا

تنفيذ مقاييس التقييم بناء على نظريات الديمقراطية في توصية تعليق الأخبار (تقرير هاوتاثون)

Implementing Evaluation Metrics Based on Theories of Democracy in News Comment Recommendation (Hackathon Report)

277   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التنوع في توصية الأخبار مهم للنقاش الديمقراطي.لا تركز استراتيجيات التوصية الحالية، وكذلك مقاييس التقييم لأنظمة التوصية، بشكل صريح على هذا الجانب من توصية الأخبار.في مجموعة 2021، قامنا بتنفيذ رواية واحدة، وتنشيط التقييم المعياري على الرواية، والتنشيط "، واستخدامه"، واستخدامه لمقارنة استراتيجيات توصية لتعليقات نيويورك تايمز، واحدة تستند إلى إعجاب المستخدم وآخر على المحرر اللقطات.وجدنا أن استراتيجيات توصية التعليق تؤدي إلى توصيات أقل باستمرار تفعيل التعليقات المتاحة في مجموعة البيانات، ولكن يختار المحرر أكثر من ذلك.قد يشير هذا إلى أن محرري نيويورك تايمز يدعمون نموذج ديمقراطي تداول، حيث يعتبر تنشيط أقل مثالية للنقاش الديمقراطي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقوم بإجراء المعنويات التلقائية وجهة نظر تحليل Corpus الأخبار السلوفينية التي تم إنشاؤها حديثا تحتوي على مقالات تتعلق بموضوع LGBTIQ + عن طريق توظيف مصنف معنويات الأخبار الواحد ونظام للكشف عن التغيير الدلالي.يركز التركيز على الاختلافات في التقارير بين وسائل الإعلام ذات الجودة العالية مع التقاليد الطويلة وسائط إخبارية مع وصلات مالية وسياسية إلى SDS، وهو حزب سياسي على اليمين السلوفيني.تشير النتائج إلى أن الانتماء السياسي للإعلام يمكن أن يؤثر على توزيع المعنويات للمقالات وإطالة مواضيع محددة ل LGBTIQ + محددة، مثل الزواج من نفس الجنس.
اكتسبت توصية الأخبار التلقائية الكثير من الاهتمام من المجتمع الأكاديمي والصناعة. تكشف الدراسات الحديثة أن مفتاح هذه المهمة يكمن في تعلم التمثيل الفعال في كل من الأخبار والمستخدمين. تعمل الأعمال الحالية عادة عنوان الأخبار والمحتوى بشكل منفصل مع إهمال تفاعلها الدلالي، وهو غير كاف من أجل فهم نص الأخبار. إلى جانب ذلك، ترميز النماذج السابقة سجل تصفح المستخدم دون الاستفادة من الارتباط الهيكلي لأخبار استعراض المستخدمين لتعكس اهتمامات المستخدم صراحة. في هذا العمل، نقترح إطار توصية أخبار يتكون من ترميز الأخبار التعاونية (CNE) وترميز المستخدم الهيكلية (SUE) لتعزيز تعلم الأخبار وتمثيل المستخدم. CNE مجهزة LSTMS ثنائي الاتجاه ترميز عنوان الأخبار والمحتوى التعاوني مع الوحدات النمطية الشاملة والاهتمام لمعرفة تمثيل الأخبار الدلالية التفاعلية. تستخدم SUE الشبكات التنافسية الرسمية لاستخراج السمات الهيكلية الكتلة لسجل المستخدم، تليها وحدات الانتباه بين الكتلة والإنتباه إلى التعلم لتعلم تمثيلات فائدة المستخدم الهرمية. نتائج التجربة على DataSet العقل التحقق من صحة فعالية نموذجنا لتحسين أداء توصية الأخبار.
إن ظهور التعلم العميق وتوافر مجموعات البيانات الكبيرة على نطاق واسع قد تسريع البحوث حول توليد اللغة الطبيعية مع التركيز على المهام الأحدث والنماذج الأفضل. مع تقدم سريع هذا، من الضروري تقييم مدى التقدم العلمي المحرز وتحديد المجالات / المكونات التي تحت اج إلى تحسين. لإنجاز ذلك بطريقة تلقائية وموثوقة، اتبع مجتمع NLP بنشاط تطوير مقاييس التقييم التلقائي. خاصة في السنوات القليلة الماضية، كان هناك تركيز متزايد على مقاييس التقييم، مع العديد من الانتقادات للمقاييس والمقترحات الحالية لعدة مقاييس جديدة. يقدم هذا البرنامج التعليمي تطور مقاييس التقييم التلقائي إلى حالتها الحالية إلى جانب الاتجاهات الناشئة في هذا المجال من خلال معالجة الأسئلة التالية على وجه التحديد: (I) ما الذي يجعل تقييم NLG صعبة؟ (2) لماذا نحتاج إلى مقاييس التقييم التلقائي؟ (3) ما هي مقاييس التقييم التلقائية الحالية وكيف يمكن تنظيمها في تصنيف متماسك؟ (4) ما هي الانتقادات وأوجه القصور في المقاييس الموجودة؟ (5) ما هي الاتجاهات المستقبلية المحتملة للبحث؟
Rouge هو متري تقييم واسع الاستخدام في تلخيص النص.ومع ذلك، فإنه غير مناسب لتقييم أنظمة تلخيص الجماع حيث تعتمد على التداخل المعجمي بين معيار الذهب والملخصات التي تم إنشاؤها.يصبح هذا القيد أكثر وضوحا للغات الشاقة مع المفردات الكبيرة جدا ونسب عالية النوع / الرمز المميز.في هذه الورقة، نقدم نماذج التشابه الدلالي لأتراك وتطبيقها كقائد تقييم لمهمة تلخيص مبادرة.لتحقيق ذلك، قامنا بترجمة مجموعة بيانات STSB الإنجليزية إلى تركية وعرضت بيانات التشابه الدلالي الأول للتركية أيضا.أظهرنا أن أفضل نماذج التشابه لدينا لها محاذاة أفضل مع الأحكام البشرية المتوسطة مقارنة بالحصان في كل من علاقات بيرسون ورأس.
تقدم هذه الورقة نتائج المهمة المشتركة للمقاييس WMT21. طلب من المشاركين تسجيل مخرجات أنظمة الترجمة المتنافسة في مهمة الترجمة الأخبار WMT21 مع مقاييس أوتوماتيكية على مجطتين مختلفتين: أخبار ومحادثات تيد. تم تقييم جميع المقاييس على مدى ارتباطها على مستوى النظام والقطاع مع التصنيفات البشرية. على عكس إصدارات السنوات السابقة، فقد استحوذنا هذا العام على تصنيفاتنا الإنسانية الخاصة بنا على أساس التقييم البشري القائم على الخبراء عبر مقاييس الجودة متعددة الأبعاد (MQM). يحتوي هذا الإعداد على العديد من المزايا: (1) قد أظهر التقييم القائم على الخبراء أنه أكثر موثوقية، (2) تمكنا من تقييم جميع المقاييس على مجاليين مختلفين باستخدام ترجمات نفس أنظمة MT، (III) أضفنا 5 إضافية الترجمات القادمة من نفس النظام أثناء تطوير النظام. بالإضافة إلى ذلك، صممنا ثلاث مجموعات تحدي تقيم متانة جميع المقاييس التلقائية. نقدم تحليلا مكثفا حول مدى أداء المقاييس على أزواج ثلاث لغات: الإنجليزية إلى الألمانية والإنجليزية إلى الروسية والصينية إلى الإنجليزية. نوضح تأثير الترجمات المرجعية المختلفة على المقاييس المستندة إلى المرجع ومقارنة شرح MQM القائم على الخبراء مع درجات DA المكتسبة بواسطة WMT.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا