نتيجة للجمل غير المنظمة وبعض أخطاء أخطاء وإجراء أخطاء، فإن العثور على كيانات اسمه في بيئة صاخبة مثل وسائل التواصل الاجتماعي يستغرق المزيد من الجهد.يحتوي Parstwiner على أكثر من 250k Tokens، بناء على تعليمات قياسية مثل MUC-6 أو Conll 2003، تجمع من Twitter الفارسي.باستخدام معامل كابا في كوهين، فإن اتساق المعلقين هو 0.95، درجة عالية.في هذه الدراسة، نوضح أن بعض النماذج الحديثة تتحلل على هذه الشركات، وتدريب نموذج جديد باستخدام تعلم التحويل الموازي بناء على بنية بيرت.تظهر النتائج التجريبية أن النموذج يعمل بشكل جيد في الفارسية غير الرسمية وكذلك في الفارسية الرسمية.
As a result of unstructured sentences and some misspellings and errors, finding named entities in a noisy environment such as social media takes much more effort. ParsTwiNER contains about 250k tokens, based on standard instructions like MUC-6 or CoNLL 2003, gathered from Persian Twitter. Using Cohen's Kappa coefficient, the consistency of annotators is 0.95, a high score. In this study, we demonstrate that some state-of-the-art models degrade on these corpora, and trained a new model using parallel transfer learning based on the BERT architecture. Experimental results show that the model works well in informal Persian as well as in formal Persian.
المراجع المستخدمة
https://aclanthology.org/
على الرغم من أن النماذج الكبيرة المدربة مسبقا (E.G.، Bert، Ernie، Xlnet، GPT3 وما إلى ذلك) قدمت أداء أعلى في النمذجة SEQ2SEQ، وغالبا ما تعوق عمليات نشرها في تطبيقات العالم الحقيقي بواسطة الحسابات المفرطة وطلب الذاكرة المعنية. بالنسبة للعديد من التطبي
تم دراسة التعرف على الكيان المسمى Nestate (NNER) على نطاق واسع، تهدف إلى تحديد جميع الكيانات المتداخلة من تمديدات محتملة (I.E.، واحد أو أكثر من الرموز المستمرة). ومع ذلك، فإن الدراسات الحديثة لأي نانر إما التركيز على مخططات العلامات الشاقة أو الاستفا
تقدم هذه الورقة نتائجنا من المشاركة في المهمة المشتركة SMM4H 2021. تناولنا التعرف على الكيان المسمى (NER) وتصنيف النص.لمعالجة NER، استكشفنا Bilstm-CRF مع تضمين مخلجان مكدسة وميزات لغوية.حققنا في العديد من خوارزميات التعلم في الآلات (الانحدار اللوجستي
تقدمت نماذج اللغة المحددة مثل بيرت حالة الفن للعديد من مهام NLP. لغات غنية بالموارد، لدى المرء الاختيار بين عدد من النماذج الخاصة باللغة، في حين أن النماذج متعددة اللغات تستحق الدراسة أيضا. هذه النماذج معروفة جيدا لأدائها Croadlingual، لكنها أظهرت أي
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات