ترغب بنشر مسار تعليمي؟ اضغط هنا

نهج غير منشأة لتلخيص تعليقات المستخدم المتعدد اللغات

Unsupervised Approach to Multilingual User Comments Summarization

135   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعليق المستخدم هو ميزة قيمة للعديد من المنافذ الإخبارية، مما يتيح لهم اتصال مع القراء وتمكين القراء للتعبير عن رأيهم، وتوفير وجهات نظر مختلفة، وحتى المعلومات التكميلية. ومع ذلك، من الصعب تصفية كميات كبيرة من تعليقات المستخدمين، ناهيك عن قراءة واستخراج المعلومات ذات الصلة. لا يزال البحث في تلخيص تعليقات المستخدمين في مهده، ومجموعات بيانات التلخيص التي تم إنشاؤها الإنسان نادرة، خاصة بالنسبة لغات أقل الموارد. لمعالجة هذه المشكلة، نقترح نهج غير مدعوم لتلخيص تعليقات المستخدم، والذي يستخدم تمثيل حديث متعدد اللغات للجمل جنبا إلى جنب مع تقنيات تلخيص الاستخراج القياسية. تقارننا مناهج تمثيل الجملة المختلفة مقترن بنهج تلخيص مختلفة يدل على أن أكثر المجموعات ناجحة هي نفسها في الأخبار وتلخيص التعليق. النتائج التجريبية وعرضت تصور تظهر فائدة المنهجية المقترحة لعدة لغات.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، فإننا نطبق غير المدعومة غير المدعومة باعتبارها مهمة جديدة في تحريض الهيكل النحوي، والتي مفيدة لفهم الهياكل اللغوية للغات البشرية وكذلك معالجة لغات الموارد المنخفضة.نقترح اتباع نهج نقل المعرفة بأنه يسخر بشكل مسبق تسميات القطعة من نماذج التحليل غير المنصوص عليها في الحديث؛يتعلم الشبكة العصبية التسلسلية المتكررة (HRNN) من هذه الملصقات المستحثة من الفرق لتسليم ضجيج الاستدلال.تبين التجارب أن نهجنا يجسد إلى حد كبير الفجوة بين الكملات الخاضعة للإشراف وغير المدعوم.
تعرف مهمة تحويل نص غير قياسي إلى نص قياسي وقابل للقراءة باسم التطبيع المعجمي. تتطلب جميع تطبيقات معالجة اللغة الطبيعية تقريبا (NLP) البيانات النصية في النموذج الطبيعي لإنشاء نماذج محددة ذات جودة عالية. وبالتالي، فقد ثبت التطبيع المعجمي لتحسين أداء ال عديد من مهام معالجة اللغة الطبيعية على وسائل التواصل الاجتماعي. تهدف هذه الدراسة إلى حل مشكلة التطبيع المعجمي من خلال صياغة مهمة التطبيع المعجمية مشكلة وضع علامة تسلسل. تقترح هذه الورقة نهج وضع علامة تسلسل لحل مشكلة التطبيع المعجمي في تركيبة مع تقنية محاذاة الكلمة. الهدف هو استخدام نموذج واحد لتطبيع النص باللغات المختلفة وهي الكرواتية والدنماركية والهولندية والإنجليزية والإندونيسية والإنجليزية والألمانية والإيطالية والصربية والسلوفينية والإسبانية والتركية والتركية والألمانية والألمانية. هذه مهمة مشتركة في عام 2021 ورشة العمل السابعة حول النص الناتج عن المستخدم الصاخب (W-NUT) "" من المتوقع أن يقوم المشاركون بإنشاء نظام / نموذج يقوم بتنفيذ التطبيع المعجمي، وهو ترجمة النصوص غير القانونية في تعادلهم الكنسي، الذين يشتملون على بيانات من أكثر من 12 لغة. يحقق النموذج المتعدد اللغوي المقترح نتيجة ERS الإجمالية من 43.75 بشأن التقييم الجوهري ونتيجة إجمالي درجة المرفقات (LAS) من 63.12 على التقييم الخارجي. علاوة على ذلك، تحقق الطريقة المقترحة أعلى نقاط معدل تخفيض الأخطاء (ERR) من 61.33 من بين المشاركين في المهمة المشتركة. تسلط هذه الدراسة الضوء على آثار استخدام بيانات تدريب إضافية للحصول على نتائج أفضل وكذلك استخدام نموذج لغة مدرب مسبقا تدرب على لغات متعددة بدلا من لغة واحدة فقط.
استخراج العلاقات غير المدعومة من قبل أزواج كيان التجمع التي لها نفس العلاقات في النص. تقوم بعض الأساليب المتنوعة (VAE) المتنوعة (VAE) بتدريب نموذج استخراج العلاقة كترفيه يولد تصنيفات العلاقة. يتم تدريب وحدة فك الترميز جنبا إلى جنب مع التشفير لإعادة ب ناء إدخال التشفير بناء على تصنيفات العلاقة التي يتم إنشاؤها المشن. هذه التصنيفات هي متغير كامن حتى يطلب منهم اتباع توزيع مسبق محدد مسبقا يؤدي إلى تدريب غير مستقر. نقترح تقنية استخراج العلاقات التي تعتمد عليها VAE تقوم بتغيير هذا القيد باستخدام التصنيفات كمتغير متوسط ​​بدلا من متغير كامن. على وجه التحديد، تكون التصنيفات مشروطة بإدخال الجملة، في حين أن المتغير الكامن مشروط على كل من التصنيفات وإدخال الجملة. يتيح ذلك نموذجنا لتوصيل وحدة فك الترميز مع التشفير دون وضع قيود على توزيع التصنيف؛ الذي يحسن استقرار التدريب. يتم تقييم نهجنا على بيانات DataSet NYT وتفوق الطرق الحديثة.
تحتوي التعليقات السامة على أشكال لغة غير مقبولة مستهدفة نحو مجموعات أو أفراد.تصبح هذه الأنواع من التعليقات مصدر قلق خطير للمنظمات الحكومية والمجتمعات عبر الإنترنت ومنصات وسائل التواصل الاجتماعي.على الرغم من وجود بعض الأساليب للتعامل مع اللغة غير المق بولة، فإن معظمها يركز على التعلم الإشراف واللغة الإنجليزية.في هذه الورقة، نتعامل مع اكتشاف التعليق السام كاستراتيجية شبه مشتركة على رسم بياني غير متجانس.نقوم بتقييم النهج على مجموعة بيانات سامة من اللغة البرتغالية، مما يتفوق على العديد من الأساليب القائمة على الرسم البياني وتحقيق نتائج تنافسية مقارنة بمناطق المحولات.
يجب أن تكون اللغة كجزء كبير من الاتصالات شاملة للمساواة والتنوع. تحتوي لغة مستخدم الإنترنت على تأثير كبير على مستخدمي الأقران في جميع أنحاء العالم. يعبر الناس عن آرائهم من خلال اللغة على المنصات الافتراضية مثل Facebook و Twitter و YouTube وما إلى ذلك . يعجب الناس نجاح الآخرين والصلاة من أجل رفاهيةهم وتشجيع فشلهم. هذه التعليقات الملهمة هي تعليقات الكلام الأمل. في الوقت نفسه، يعزز مجموعة من المستخدمين التمييز على أساس الجنس والوجه العنصري والجنسي والأشخاص ذوي الإعاقة والأقليات الأخرى. تهدف الورقة الحالية إلى تحديد تعليقات خطاب الأمل المهم للغاية للمضي قدما في الحياة. تعمل العديد من التعلم الآلي ونماذج التعلم العميق (مثل آلة ناقلات الدعم، الانحدار اللوجستية، الشبكة العصبية التنافسية، الشبكة العصبية المتكررة) لتحديد خطاب الأمل في تعليقات YouTube المعينة. تتوفر تعليقات YouTube باللغات الإنجليزية والتاميل والملاى وهي جزء من المهمة EACL-2021: الكشف عن الكلام في الأمل للمساواة والتنوع والإدماج ".

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا