ترغب بنشر مسار تعليمي؟ اضغط هنا

النمذجة الثقافية النمذجة على رواية ويكيبيديا كورسا للغات الجنوبية-السلافية

Cultural Topic Modelling over Novel Wikipedia Corpora for South-Slavic Languages

302   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

هناك نقص في شورا عالي الجودة للغات الجنوبية السلافية. مثل هذه الشركات مفيدة لعلماء الكمبيوتر والباحثين في العلوم الاجتماعية والعلوم الإنسانية على حد سواء، مع التركيز على العديد من تطبيقات اللغات والمحتوى وتطبيقات معالجة اللغة الطبيعية. تقدم هذه الورقة سيرجال سير عمل للتعدين محتوى ويكيبيديا ومعالجته في كوربورا معالجته اللغوي، المطبق على البوسنة والكبلانية والكرواتية والكرواتية والصلبيون والرويبو الكرواتية والسلوفانية والسلوفينية. نحن نجعل سبعة كوربورا متاحة للجمهور. نعرض هذه كوربورا من خلال مقارنة محتوى ويكيبيديا الأساسي، افتراضنا أن محتوى ويكيبيداس يعكس المصالح على نطاق واسع في موضوعات مختلفة في هذه الدول البلقان. نقوم بإجراء مقارنة المحتوى باستخدام خوارزميات نمذجة الموضوع ومقارنات التوزيع المختلفة. تظهر النتائج أن جميع ويكيبيداس متشابهة موضعيا تماما، مع كلها تغطي الفن والثقافة والأدب، في حين أنها تحتوي على اختلافات في الجغرافيا والسياسة والتاريخ والعلوم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الدراسة وتحليلات WikitalkEdit وديجمات من المحادثات وتعديل التواريخ من ويكيبيديا، للبحث في التعاون عبر الإنترنت ونمذجة المحادثة. تضم DataSet ثلاث مرات حوار من صفحات الحديث Wikipedia، وتحرير الإجراءات على المقالات المقابلة التي تتم مناقشتها. ن ظرا لكيفية دعم البيانات الفهم الكلاسيكي للمطابقة النمط، حيث تتوقع العاطفة الإيجابية واستخدام الضمائر ذات الشخص الأول تغييرا عاطفيا إيجابي في مساهم ويكيبيديا. ومع ذلك، فإنهم لا يتوقعون سلوك التحرير. من ناحية أخرى، فإن ردود الفعل التي تم استدعاء الوكلاء والنقد، والمراجع إلى قواعد المجتمع في ويكيبيديا، من المرجح أن تقنع المساهم في أداء التعديلات ولكنها أقل عرضة للتأدي إلى مشاعر إيجابية. لقد قمنا بتطوير مصنفات أساسية مدربة على ميزات روبرتا مدربة مسبقا والتي يمكن أن تتنبأ بالتغيير التحريري بدرجة F1 من .54، بالمقارنة مع درجة F1 من .66 للتنبؤ بالتغيير العاطفي. كما يتم توفير تحليل تشخيصي للأخطاء الاستمرارية. نستنتج مع التطبيقات والتوصيات المحتملة للعمل في المستقبل. تتوفر DataSet علنا ​​لمجتمع البحث في https://github.com/kj2013/wikitalkedit/.
التلخصات المتبقية هي مهمة صعبة لا توجد موارد علمية عبر اللغات المتاحة حاليا. للتغلب على عدم وجود مورد عالي الجودة، نقدم مجموعة بيانات جديدة لتلخيص أحادي اللغة وتبادر بالنظر إلى الزوج الإنجليزي الألماني. نقوم بجمع بيانات عالية الجودة العالية والعالمية من SPEKTRUM DER WISSENSCHAFT، والتي تنشر ملخصات علمية ألمانية مكتوب بشرية من مقالات علمية باللغة الإنجليزية حول مختلف الموضوعات. مجموعة بيانات Spektrum التي تم إنشاؤها صغيرة؛ لذلك، نحث مجموعة بيانات مماثلة من بوابة علوم ويكيبيديا لاستكمالها. تتكون DataSet Wikipedia من مقالات باللغة الإنجليزية والألمانية، والتي يمكن استخدامها في تلخيص أحادي ومقاطع. علاوة على ذلك، نقدم تحليلا كميا لمجموعات البيانات ونتائج التجارب التجريبية مع العديد من نماذج تلخيص الاستخراجية والمخفية القائمة. تشير النتائج إلى جدوى وفيد بيانات البيانات المقترحة لتلخيص أحادي وطني وتبادل اللغات.
يمكن أن تصدر نماذج الموضوع العصبي أو استبدال مدخلات كيس الكلمات مع التمثيلات المستفادة من نماذج التنبؤ بكلمة التنبؤ المدربة مسبقا مسبقا. تتمثل إحدى فائدة واحدة عند استخدام التمثيلات من النماذج متعددة اللغات هي أنها تسهل نمذجة موضوع الصلاع اللاحق للصف ر. ومع ذلك، في حين أنه لوحظ على نطاق واسع أن المدينات المدربة مسبقا يجب أن يتم ضبطها بشكل جيد لمهمة معينة، فليس من الواضح على الفور ما يجب أن يبدو الإشراف بهذه المهمة غير المزدوجة مثل نمذجة الموضوع. وبالتالي، نقترح عدة طرق لترميز التركيز الدقيق لتحسين كل من النمذجة النمذجة العصبية أحادية الألوان والصفرية. نحن نفكر في ضبط المهام الإضافية، بناء مهمة تصنيف موضوع جديد، دمج هدف تصنيف الموضوع بشكل مباشر في التدريب النموذجي للموضوع، واستمر التدريب قبل التدريب. نجد أن تمثيل تشفير الترميز بشكل جيد على تصنيف الموضوع وإدماج مهمة تصنيف الموضوع مباشرة في نمذجة موضوع يحسن جودة الموضوع، وأن تمثيل التشفير الدقيق في أي مهمة في أي مهمة هي أهم عامل لتسهيل النقل عبر اللغات.
تهدف تقنيات توليد الجيل إلى توليد تعريف كلمة أو عبارة مستهدفة بالنظر إلى السياق.في الدراسات السابقة، واجه الباحثون قضايا مختلفة مثل مشكلة خارج المفردات ومشاكل أكثر من اللازم.التعاريف المفرطة المحددة الحالية معاني الكلمة الضيقة، في حين أن التعاريف الخ اضعة لها المعاني العامة والسياق غير حساسة.هنا، نقترح طريقة لتوليد التعريف مع الخصوصية المناسبة.تعالج الطريقة المقترحة المشكلات المذكورة أعلاه من خلال الاستفادة من نموذج ترميز التشفير المدرب مسبقا، وهي محول نقل النص إلى النص، وإدخال آلية إعادة الترتيب لنموذج النوعية في التعاريف.تشير النتائج التجريبية إلى مجموعات بيانات التقييم القياسية إلى أن طريقتنا تتفوق بشكل كبير على الطريقة السابقة للحالة السابقة.علاوة على ذلك، يؤكد التقييم اليدوي أن أسلوبنا يعالج بشكل فعال مشاكل أكثر من / أقل خصوصية.
نماذج الموضوعات هي أدوات مفيدة لتحليل وتفسير المواضيع الأساسية الرئيسية للنص الكبير.تعتمد معظم نماذج الموضوعات على حدوث كلمة Word لحساب موضوع، أي مجموعة مرجحة من الكلمات التي تمثل معا مفهوم دلالي رفيع المستوى.في هذه الورقة، نقترح نموذجا جديدا جديدا م ختلفا عن الخفيفة الوزن في الوزن (SNTM) يتعلم سياق غني من خلال تعلم تمثيل موضوعي بالاشتراك من ثلاثة كلمات مشتركة وثيقة تنشأ ثلاثية.تشير نتائجنا التجريبية إلى أن نموذج الموضوع العصبي المقترح لدينا، SNTM، يتفوق على نماذج الموضوعات الموجودة سابقا في مقاييس الاتساق بالإضافة إلى دقة تجميع المستندات.علاوة على ذلك، بصرف النظر عن تماسك الموضوع وأداء التجميع، فإن طراز الموضوع العصبي المقترح لديه عدد من المزايا، وهي، كونها فعالة بشكل حسابي وسهل التدريب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا