ترغب بنشر مسار تعليمي؟ اضغط هنا

acesum: تخصيص نص أيسلندي كوربوس

IceSum: An Icelandic Text Summarization Corpus

197   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تلخيص النص التلقائي (ATS) هو مهمة توليد ملخصات موجزة وطلاقة من مستند واحد أو أكثر.في هذه الورقة، نقدم ICESUM، أول كوربوس الأيسلندية المشروح مع ملخصات تولدها الإنسان.يتكون ICESUM من 1000 مقالة إخبارية عبر الإنترنت ملخصاتها الاستخراجية.نحن ندرب وتقييم العديد من النماذج القائمة على الشبكة العصبية في هذه البيانات، ومقارنتها ضد مجموعة مختارة من الأساليب الأساسية.نجد أن نموذج فك ترميز التشفير مع النازع المستند إلى التسلسل يحصل على أفضل النتائج، مما يتفوق على جميع أساليب خط الأساس.علاوة على ذلك، نقيم كيف يؤثر حجم كوربوس التدريب على جودة الملخصات التي تم إنشاؤها.نفرج عن Corpus والنماذج مع ترخيص مفتوح.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في الترجمة الآلية، يعد إعداد Corpus أحد المهام الحاسمة، خاصة لأزواج منخفضة.في بلدان متعددة اللغات مثل الهند، تلعب الترجمة الآلية دورا حيويا في التواصل بين الأشخاص الذين لديهم خلفيات لغوية مختلفة.تتوفر أنظمة الترجمة الآلية المتوفرة عبر الإنترنت من قبل Google و Microsoft والتي تشمل لغات مختلفة تفتقر إلى الدعم لغلق Khasi، والتي يمكن اعتبارها LonResource.نظرة عامة على هذه الورقة تطوير ENKHCCORP1.0، وهي كوربوس للإنجليزية - Khasi Pair، ونفذت أنظمة أساسية للترجمة الإنجليزي Englishtokhasi و Khasitoenglish بناء على نهج ترجمة الآلات العصبية.
توفر منصات الوسائط الاجتماعية (SM) مثل Twitter كميات كبيرة من البيانات في الوقت الفعلي والتي يمكن الاستفادة منها أثناء حالات الطوارئ الجماعية. تتطلب تطوير أدوات لدعم المجتمعات المتأثرة بالأزمات مجموعات البيانات المتاحة، والتي غالبا ما تكون موجودة لغا ت الموارد المنخفضة. تقدم هذه الورقة Kawarith A Corpus عربي لهي تيتر من أجل أحداث الأزمات، تضم أكثر من مليون تغريدات عربية تم جمعها خلال 22 أزمات حدثت بين عامي 2018 و 2020 وشمل عدة أنواع من الخطر. كشف استكشاف هذا المحتوى عن أهم المواضيع وأنواع المعلومات، وتقدم الورقة مجموعة بيانات معدنية من سبعة أحداث طارئة تعمل كمعيار ذهبي للعديد من المهام في أبحاث المعلوماتية للأزمات. استخدام البيانات المشروحة من نفس الحدث، يكون نموذج BERT يتم ضبطه جيدا لتصنيف تغريدات إلى فئات مختلفة في الإعداد متعدد الملصقات. تظهر النتائج أن النماذج القائمة على بيرت تسفر عن أداء جيد في هذه المهمة حتى مع كميات صغيرة من بيانات التدريب الخاصة بمهام المهام.
تهدف تلخيص النص الاستخراجي إلى استخراج الأحكام الأكثر تمثيلا من وثيقة معينة كملخص لها. لاستخراج ملخص جيد من وثيقة نصية طويلة، يلعب تضمين الجملة دورا مهما. تتمتع الدراسات الحديثة باختصار شبكات عصبية لالتقاط العلاقة بين العلاقة بين الأمريكيين (مثل الرس م البياني للخطوط) داخل الوثائق لتعلم تضمين الجملة السياقية. ومع ذلك، فإن تلك النهج لا تنظر في أنواع متعددة من العلاقات بين العلاقات بين العلاقات بين العلاقات بين العلاقات العامة (على سبيل المثال، علاقات التدوين الدلالي والاتصال الطبيعي)، ولا علاقات نموذجية نموذجية (E.G، التشابه الدلالي والعلاقة الأساسية بين الكلمات). لمعالجة هذه المشكلات، نقترح شبكة تفصيلية رواية متعددة الأجزاء (متعددة الجنسيات) إلى نموذج أنواع مختلفة من العلاقات بين الجمل والكلمات. استنادا إلى Multi-GCN، نقترح طراز موجز جراب متعدد الأطراف (متعدد الأجراس) لتلخيص نص استخراج. أخيرا، نقوم بتقييم النماذج المقترحة على مجموعة بيانات CNN / DailyMaMail القياسية لإظهار فعالية طريقتنا.
نقوم بإنشاء كورب حوار واسعة النطاق يوفر الصيغة العمومية لتعزيز التكنولوجيا لفهم النوايا الأساسية للمستخدمين.في حين تكتسب نماذج المحادثة العصبية القدرة على توليد ردود بطلاقة من خلال التدريب على كوربس للحوار، ركزت شركة سورانيا السابقة بشكل رئيسي على ال معاني الحرفية للكلمات.ومع ذلك، في الواقع، لا يقدم الناس دائما نواياهم مباشرة.على سبيل المثال، إذا قال شخص لمشغل خدمة الحجز ليس لدي ميزانية كافية. ''، في الواقع، يعني الرجاء العثور على خيار أرخص بالنسبة لي. '' Corpus توفر ما مجموعه 71،498 غير مباشرة- أزواج الكلام الميرانية مصحوبة بتاريخ حوار متعدد الدوران المستخرج من مجموعة بيانات MultiWoz.بالإضافة إلى ذلك، نقترح ثلاث مهام لقياس قدرة النماذج على الاعتراف وإنشاء الكلام غير المباشرة والمباشرة.حققنا أيضا في أداء النماذج المدربة مسبقا في أحدث خطوط الأساس.
هذا اقتراح بحثي لأبحاث الدكتوراه في اكتشاف السخرية، والترجمة في الوقت الحقيقي لجور اللغة الإنجليزية من الكلمات الساخرة.تفاصيل البحث السابق في مواضيع مماثلة، اتجاهات البحث المحتملة والأهداف البحثية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا