ترغب بنشر مسار تعليمي؟ اضغط هنا

LASIGE-BIOTM في الوكيل: Bilstm-CRF و Auttastual Spanish Ageddings for Named Entity Areachition و Tweet تصنيف ثنائي

Lasige-BioTM at ProfNER: BiLSTM-CRF and contextual Spanish embeddings for Named Entity Recognition and Tweet Binary Classification

88   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف الورقة مشاركة فريق Lasig-Biotm في المسارات الفرعية A و B من PROFORNER، والتي تستند إلى: I) نموذج Bilstm-CRF الذي يرفع إلى تضيير الكلمات السياقية والكلفة الكلاسيكية للاعتراف بتذكر وتصنيفها، والثاني)على وحدة نمطية قائمة على القواعد لتصنيف تغريدات.في مرحلة التقييم، حقق نموذجنا درجة F1 من 0.917 (0،031 أكثر من المتوسط) في المسار الفرعي ونتيجة F1 من 0.727 (0،034 أقل من المتوسط) في المسار الفرعي B.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة مشاركة فريق سيناء في المهمة 5: الكشف عن الأمور السامة التي تتكون من تحديد المواقف التي تجعل النص سام.على الرغم من أن العديد من الموارد والأنظمة قد تم تطويرها حتى الآن في سياق اللغة الهجومية، ركزت كل من التوضيحية والمهام بشكل رئيسي على تصنيف ما إذا كان النص مسيء أم لا.ومع ذلك، فإن اكتشاف المواقف السامة أمر بالغ الأهمية لتحديد سبب وجود نص سام ويمكنه مساعدة المشرفين البشري لتحديد موقع هذا النوع من المحتوى على وسائل التواصل الاجتماعي.من أجل إنجاز المهمة، نتبع نهجا عميقا قائم على التعلم باستخدام متغير ثنائي الاتجاه لشبكة ذاكرة طويلة الأجل طويلة إلى جانب طبقة فكري حقل عشوائية مشروطة (Bilstm-CRF).على وجه التحديد، نختبر أداء مزيج من مختلف تضمين الكلمة المدربة مسبقا للتعرف على الكيانات السامة في النص.تظهر النتائج أن مزيج من Adgeddings يساعد في اكتشاف المحتوى الهجومي.يرتب فريقنا 29 من أصل 91 مشاركا.
تقدم هذه الورقة نتائجنا من المشاركة في المهمة المشتركة SMM4H 2021. تناولنا التعرف على الكيان المسمى (NER) وتصنيف النص.لمعالجة NER، استكشفنا Bilstm-CRF مع تضمين مخلجان مكدسة وميزات لغوية.حققنا في العديد من خوارزميات التعلم في الآلات (الانحدار اللوجستي ، SVM والشبكات العصبية) لمعالجة تصنيف النص.يمكن التعميم مناهجنا المقترحة لغات مختلفة وقد أظهرنا فعاليتها للغة الإنجليزية والإسبانية.حققت تقارير تصنيف النص لدينا أداء تنافسي مع درجة F1 0.46 و 0.90 على تصنيف ADE (المهمة 1A) وتصنيف المهنة (المهمة 7A) على التوالي.في حالة NER، سجلت عمليات التقديمات لدينا درجة F1 من 0.50 و 0.82 على اكتشاف ADE SPAN (المهمة 1B) والكشف عن المهنة (المهمة 7 ب) على التوالي.
في حين أن إنتاج المعلومات في الفترة الحديثة الأوروبية المبكرة هو موضوع بحثي جيدا، فإن السؤال كيف كان الناس يشاركون مع انفجار المعلومات الذي حدث في أوروبا الحديثة المبكرة، لا يزال غير مقصود. تقدم هذه الورقة التعليقات التوضيحية والتجارب التي تهدف إلى ا ستكشاف ما إذا كان بإمكاننا استخراج المعلومات ذات الصلة بالوسائط (المصدر، والإدراك، والمستقبل) من جثة من سجلات هولندية حديثة مبكرة من أجل الحصول على نظرة ثاقبة في وسائل الإعلام من أفراد الطبقة الوسطى الحديثة المبكرة من منظور تاريخي. في عدد من تجارب التصنيف مع الحقول العشوائية الشرطية، يتم اختبار ثلاث فئات من الميزات: (1) ميزات تضمين Word RAW و Binary، (II) ميزات المعجم، و (III) ميزات الأحرف. بشكل عام، يؤدي المصنف الذي يستخدم embeddings الخام أفضل قليلا. ومع ذلك، بالنظر إلى أن أفضل درجات F حوالي 0.60، نستنتج أن نهج التعلم الآلي يجب الجمع بين نهج قراءة وثيق للنتائج مفيدة للإجابة على أسئلة بحث التاريخ.
نتيجة للجمل غير المنظمة وبعض أخطاء أخطاء وإجراء أخطاء، فإن العثور على كيانات اسمه في بيئة صاخبة مثل وسائل التواصل الاجتماعي يستغرق المزيد من الجهد.يحتوي Parstwiner على أكثر من 250k Tokens، بناء على تعليمات قياسية مثل MUC-6 أو Conll 2003، تجمع من Twit ter الفارسي.باستخدام معامل كابا في كوهين، فإن اتساق المعلقين هو 0.95، درجة عالية.في هذه الدراسة، نوضح أن بعض النماذج الحديثة تتحلل على هذه الشركات، وتدريب نموذج جديد باستخدام تعلم التحويل الموازي بناء على بنية بيرت.تظهر النتائج التجريبية أن النموذج يعمل بشكل جيد في الفارسية غير الرسمية وكذلك في الفارسية الرسمية.
حققت أنظمة ربط الكيان (EL) نتائج مثيرة للإعجاب على المعايير القياسية بشكل أساسي بفضل التمثيلات السياقية المقدمة من نماذج اللغة المحددة مسبقا.ومع ذلك، لا تزال هذه الأنظمة تتطلب كميات ضخمة من البيانات - ملايين الأمثلة المسمى - في أفضل حالاتهم، مع أوقات تدريبية تتجاوز غالبا عدة أيام، خاصة عندما تتوفر موارد حسابية محدودة.في هذه الورقة، ننظر إلى كيفية استغلال التعرف على الكيان المسمى (ner) لتضييق الفجوة بين أنظمة EL المدربين على كميات عالية ومنخفضة من البيانات المسمى.وبشكل أكثر تحديدا، نوضح كيف وإلى أي مدى يمكن للنظام أن يستفيد نظام EL من NER لتعزيز تمثيلات كيانه، وتحسين اختيار المرشح، وحدد عينات سلبية أكثر فعالية وفرض قيود صلبة وناعمة على كيانات الإخراج.نطلق سراح البرامج ونقاط التفتيش النموذجية - في https://github.com/babelscape/ner4el.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا