ترغب بنشر مسار تعليمي؟ اضغط هنا

النص الذي تم إنشاؤه من قبل المستخدم لتقييم التحليل المورفولوجي الياباني والتطبيع المعجمي

User-Generated Text Corpus for Evaluating Japanese Morphological Analysis and Lexical Normalization

292   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحليل مورفولوجي (MA) والتطبيع المعجمي (LN) هي مهام مهمة للنص الياباني الذي تم إنشاؤه بواسطة المستخدمين (UGT).لتقييم ومقارنة أنظمة MA / LN المختلفة، قمنا ببناء كوربوس UGT اليابانية المتاحة للجمهور.يشتمل كوربوس لدينا على 929 جمل مشروحة مع معلومات مورفولوجية وتطبيعا، إلى جانب معلومات الفئة المصنفة لظواهر خاصة بوحشية UGT.أظهرت التجارب على الجثة أداء أداء منخفضة من أساليب MA / LN الحالية للكلمات غير العامة والنماذج غير القياسية، مما يشير إلى أن الكائن ستكون معيارا صعبا لمزيد من البحث حول UGT.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعد التطبيع المعجمي، بالإضافة إلى تقسيم الكلمات وعلامات جزء من الكلام، مهمة أساسية لمعالجة النصية اليابانية التي أنشأها المستخدم.في هذه الورقة، نقترح نموذج تحرير النصوص لحل المهمة الثلاثة المشتركة وطرق توليد البيانات المسمى Pseudo للتغلب على مشكلة نق ص البيانات.أظهرت تجاربنا أن النموذج المقترح حقق أداء تطبيع أفضل عند التدريب على بيانات أكثر تنوعا المصممة بالقطرات.
نقدم خوارزمية استنادا إلى محولات متعددة الطبقات لتحديد ردود الفعل الدوائية الضارة (ADR) في بيانات وسائل التواصل الاجتماعي.يعتمد نموذجنا على خصائص المشكلة وخصائص ASTDDings Word السياقي لاستخراج وجهات نظرتين من المستندات.ثم يتم تدريب المصنف على كل طريق ة عرض لتسمية مجموعة من المستندات غير المستخدمة لاستخدامها كتهيئة لتصنيف جديد في الرأي الآخر.أخيرا، يتم تدريب المصنف التهيئي في كل طريقة عرض باستخدام أمثلة التدريب الأولي.قمنا بتقييم نموذجنا في أكبر مجموعة بيانات ADR المتاحة للجمهور.تشهد التجارب أن نموذجنا يتفوق بشكل كبير على النماذج القائمة على المحولات مسبقا على البيانات الخاصة بالمجال.
في هذه الدراسة، اقترحنا طريقة وضع العلامات الزائفة القائمة على معجم الرواية باستخدام نهج AI (XAI) القائم. النهج الحالي لديه قيود أساسية في متواضتهم لأن المصنف الفقراء يؤدي إلى وضع علامة ناعمة غير دقيقة، ويؤدي إلى تصنيف الفقراء بشكل متكرر. وفي الوقت ن فسه، نولد المعجم يتكون من كلمة المعنويات بناء على نقاط الشرح. ثم نحسب ثقة البيانات غير المسبقة مع المعجم وإضافتها إلى مجموعة بيانات المسمى لنهج وضع العلامات الزائفة القوية. لدينا طريقة المقترحة لها ثلاثة مساهمات. أولا، يولد المنهجية المقترحة تلقائيا معجما يعتمد على Xai ويقوم بإجراء وضع علامات زائفة مستقلة، وبالتالي ضمان الأداء الأعلى والأقلية مقارنة بالآخر. ثانيا، نظرا لأن وضع العلامات الزائفة القائمة على المعجم يتم تنفيذها دون التعلم في معظم النماذج، فإن كفاءة الوقت قد زادت إلى حد كبير، وثالثا، يمكن أن تكون المعجم المنتج عالية الجودة المتوفرة لتحليل المعنويات للبيانات من مجالات مماثلة. تم التحقق من فعالية وكفاءة أسلوبنا المقترح من خلال المقارنة الكمية مع طريقة وضع العلامات الزائفة الحالية والمراجعة النوعية للمعجم الذي تم إنشاؤه.
تشمل النصوص التي تم إنشاؤها من قبل المستخدم أنواعا مختلفة من الخصائص الأسلوبية، أو الضوضاء.لا تتم معالجة مثل هذه النصوص بشكل صحيح من خلال محلل مورفيم الحاليين أو نماذج اللغة القائمة على النصوص الرسمية مثل الموسوعات أو المقالات الإخبارية.في هذه الورقة ، نقترح أذكيلة بسيطة مناسبة مورفولوجية (K-MT) التي يمكن أن تعالج بشكل أفضل الأسماء المعدنية والتعاوض واللغة العامية الإنترنت من بين أنواع أخرى من الضوضاء في النصوص التي تم إنشاؤها من قبل المستخدمين الكورية.لقد اختبرنا خصومنا من خلال إجراء مهام التصنيف في مراجعات الأفلام الكورية التي أنشأها المستخدم ومجموعات بيانات الكلام الكراهية، ومجموعات بيانات التعرف على الكيان الكورية.من خلال اختباراتنا، وجدنا أن K-MT مناسبا بشكل أفضل لمعالجة علاوات الإنترنت والأسماء المناسبة والتعاملات المعدنية، مقارنة بمحلل مورفيم ومزمله لوائح التحميم على مستوى الطابع.
تحذير: تحتوي هذه المقالة على محتويات قد تسيء إلى القراء. الاستراتيجيات التي تنشر ضجيجا متعمدا في نص عند نشرها شائعة في فضاء الإنترنت، وأحيانا تهدف إلى السماح لبعض أفراد المجتمع فقط بفهم الدلالات الحقيقية. في هذه الورقة، نستكشف الغرض من هذه الإجراءا ت عن طريق تصنيفها إلى حيل و ميمز وفلاتر والأكواد، وتنظيم الاستراتيجيات اللغوية المستخدمة في كل غرض. من خلال ذلك، نحدد أن يتم إجراء هذه الاستراتيجيات من قبل مؤلفين لأغراض متعددة، فيما يتعلق بوجود أصحاب المصلحة مثل الأقران والآخرين.ونحلل أخيرا كيفية ظهور هذه الاستراتيجيات بشكل مختلف في كل ظرف من الظروف، إلى جانب الأمثلة المصاحبة للتصنيف الموحد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا