ترغب بنشر مسار تعليمي؟ اضغط هنا

الفارسي SEMCOR: كيس من معنى الكلمة المشروحة Corpus اللغة الفارسية

Persian SemCor: A Bag of Word Sense Annotated Corpus for the Persian Language

290   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

عادة ما تحقق الأساليب الخاضعة للإشراف أفضل أداء في مشكلة غموض معنى الكلمة.ومع ذلك، فإن عدم توفر إحساس كبير مشروح بالنسبة للعديد من اللغات منخفضة الموارد يجعل هذه الأساليب غير قابل للتطبيق لها في الممارسة العملية.في هذه الورقة، نقوم بتخفيف هذه المشكلة باللغة الفارسية من خلال اقتراح نهج أوتوماتيكي بالكامل للحصول على فارسية الفارسية (Bredemcor)، ككائن مشروح من كيس الفارسية (القوس).قمنا بتقييم الصرص على حد سواء بشكل جوهري ودخله وأظهر أنه يمكن استخدامه بفعالية كمجموعات تدريبية لأنظمة WSD الإشرافية الفارسية.لتشجيع البحث في المستقبل على الغموض في مجال الإحساس بالكلمة الفارسية، فإننا نطلق الولادة في http://nlp.sbu.ac.ir.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نتيجة للجمل غير المنظمة وبعض أخطاء أخطاء وإجراء أخطاء، فإن العثور على كيانات اسمه في بيئة صاخبة مثل وسائل التواصل الاجتماعي يستغرق المزيد من الجهد.يحتوي Parstwiner على أكثر من 250k Tokens، بناء على تعليمات قياسية مثل MUC-6 أو Conll 2003، تجمع من Twit ter الفارسي.باستخدام معامل كابا في كوهين، فإن اتساق المعلقين هو 0.95، درجة عالية.في هذه الدراسة، نوضح أن بعض النماذج الحديثة تتحلل على هذه الشركات، وتدريب نموذج جديد باستخدام تعلم التحويل الموازي بناء على بنية بيرت.تظهر النتائج التجريبية أن النموذج يعمل بشكل جيد في الفارسية غير الرسمية وكذلك في الفارسية الرسمية.
الملخص على الرغم من التقدم المحرز في السنوات الأخيرة في معالجة تحديات فهم اللغة الطبيعية (NLU)، فإن غالبية هذا التقدم لا يزال يتركز على اللغات الغنية بالموارد مثل اللغة الإنجليزية. يركز هذا العمل على اللغة الفارسية، واحدة من اللغات المنطوقة على نطاق واسع في العالم، ومع ذلك، هناك عدد قليل من مجموعات بيانات NLU متاحة لهذه اللغة. إن توفر مجموعات بيانات التقييم عالية الجودة ضرورة لتقييم موثوق للتقدم المحرز في مهام ومجال NLU المختلفة. نقدم Parsinlu، أول معيار باللغة الفارسية التي تتضمن مجموعة من مهام فهم اللغة --- قراءة الفهم والتتبع النصي وما إلى ذلك. يتم جمع مجموعات البيانات هذه في العديد من الطرق، وغالبا ما تنطوي على التعليقات التوضيحية اليدوية من قبل المتكلمين الأصليين. ينتج عن هذا أكثر من 14.5 ألف حالة جديدة عبر 6 مهام NLU مميزة. بالإضافة إلى ذلك، نقدم النتائج الأولى من طرازات اللغة أحادية الأحادية ومتعددة اللغات في هذه المعيار ومقارنتها بالأداء البشري، والذي يوفر رؤى قيمة في قدرتنا على معالجة التحديات الفارسية في اللغة الفارسية. نأمل أن يعزز Parsinlu مزيدا من البحث والتقدم في فهم اللغة الفارسية
تقدم هذه الورقة محاولة في اكتشاف تعبيرات متعددة الكلمات (MWES) في اللغة الفارسية.وهي تركز على استخراج MWES التي تحتوي على لام من مجموعة معينة: الكلمات المستعارة في الفارسية وما يعادلها التي اقترحتها أكاديمية اللغة الفارسية والأدب.من أجل اكتشاف مثل هذ ه MWES، يتم استخدام أربع تدابير جمعية (AMS) وتقييمها.أخيرا، يتم تحليل قائمة MWES المستخرجة، ويتم عرض مقارنة بين التعبيرات ذات الكلمات المستعارة وما يعادلها.لمعرفةنا، هذه هي المرة الأولى التي يتم فيها توفير مثل هذا التحليل للغة الفارسية.
مكنت الوصول الواسع من منصات وسائل التواصل الاجتماعي، مثل Twitter، العديد من المستخدمين من مشاركة أفكارهم وآرائهم وعواطفهم على مواضيع مختلفة عبر الإنترنت. سيسمح القدرة على الكشف عن هذه المشاعر تلقائيا العلماء الاجتماعيين، وكذلك الشركات التي يجب فهم ال ردود بشكل أفضل من الأمم والأزياء. في هذه الدراسة، نقدم مجموعة بيانات تتراوح بين 30،000 تغريدات فارسي تحمل مشاعر EKMAN الأساسية الستة (الغضب والخوف والسعادة والحزن والحزن والكراهية والعجب). هذه هي أول مجموعة بيانات العاطفة المتاحة للجمهور في اللغة الفارسية. في هذه الورقة، نوضح نظام جمع البيانات ووضع العلامات المستخدمة لإنشاء هذه البيانات. نقوم أيضا بتحليل مجموعة البيانات التي تم إنشاؤها، والتي تظهر ميزات وخصائص البيانات المختلفة. من بين أشياء أخرى، نحقق في حدوث مشاعر مختلفة في مجموعة البيانات، والعلاقة بين المعنويات والعاطفة الحالات النصية. تتوفر DataSet علنا ​​في https://github.com/nazaninsbr/persian-emotion-detection.
في لغات parataxis مثل الصينية، يتم بناء معاني الكلمات باستخدام تكوينات كلمات محددة، والتي يمكن أن تساعد في إزالة حواس الكلمات.ومع ذلك، نادرا ما يتم استكشاف هذه المعرفة في أساليب Disambiguation Sense (WSD) السابقة.في هذه الورقة، نقترح نفايات المعرفة ب تكوين النصوص لتعزيز WSD الصيني.نحن أولا بناء مجموعة بيانات WSD الصينية على نطاق واسع مع تكوينات الكلمات.بعد ذلك، نقترح نموذج صيغة نموذجية لإدماج تكوين الكلمات بشكل صريح في حالة إزالة الغموض.لتعزيز التعميم، نقوم بتصميم وحدة تنقية تكوين كلمة في حالة تعويض تكوين كلمة غير متوفرة.تظهر النتائج التجريبية أن طريقتنا تجلب تحسن كبير في الأداء على خطوط خطوط خطوط خطوط طويلة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا