ترغب بنشر مسار تعليمي؟ اضغط هنا

النمذجة العصبية للكيانات والمورفولوجيا المسماة (NEMO2)

Neural Modeling for Named Entities and Morphology (NEMO2)

312   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مجردة التعرف على الكيانات المسماة (NER) هي مهمة NLP الأساسية، والتي صاغها عادة كتصنيف على سلسلة من الرموز. تشكل اللغات الغنية المورفولوجية (MRLS) تحديا لهذه الصياغة الأساسية، حيث لا تتزامن حدود الكيانات المسماة بالضرورة مع حدود الرمز المميز، بل يحترمون الحدود المورفولوجية. لمعالجة NER في MRLS، نحتاج إلى الإجابة عن أسئلتين أساسيتين، وهي، ما هي الوحدات الأساسية التي سيتم تسميةها، وكيف يمكن الكشف عن هذه الوحدات وتصنيفها في إعدادات واقعية (أي، حيث لا يتوفر مورفولوجيا ذهبية). نحن نحقق تجريبيا في هذه الأسئلة حول معيار NENT الجديد، مع الشروح النيرية المتوازية من المستوى المتوازي ومستوى مورفيم، والتي نطورنا للعبرية الحديثة، وهي لغة غنية بالغريات المورفولوجية. تظهر نتائجنا أن النمذجة الصرخة على حدود مورفولوجية تؤدي إلى تحسين الأداء النيري، وأن الهندسة المعمارية المختلطة الهجينة، التي يسبقها ner يسبقها التحلل المورفولوجي، تتفوق بشكل كبير على خط الأنابيب القياسي، حيث يسبق التحلل المورفولوجي بشكل صارم NER، وضع شريط أداء جديد لكليهما العبرية NER والعبرية المهام المورفولوجية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهرت نماذج الشبكة العصبية المستندة إلى ما يحقظ أن عروض حديثة (SOTA) على مهام معالجة اللغة الطبيعية (NLP). تعد تمثيل الجملة الأكثر استخداما لأساليب NLP ذات الاستخدام العصبي سلسلة من الكلمات الفرعية المختلفة عن تمثيل الجملة من الأساليب غير العصبية الت ي يتم إنشاؤها باستخدام تقنيات NLP الأساسية، مثل العلامات على جزء من الكلام (POS)، اسمه الكيان (NE) الاعتراف، والتحليل. تتلقى معظم نماذج NLP ذات القائمة العصبية فقط ناقلات ترميزها من سلسلة من الكلمات الفرعية التي تم الحصول عليها من نص الإدخال. ومع ذلك، لا يمكن الحصول على معلومات NLP الأساسية، مثل علامات نقاط البيع، ونتائج NES، وتحليل النتائج، إلخ، بشكل صريح من النص الكبير غير المستخديم المستخدمة في النماذج المستندة إلى ما يحقظ. تستكشف هذه الورقة استخدام NES على مهمتين يابانيين؛ تصنيف المستندات والجيل الرئيسي باستخدام النماذج القائمة على المحولات، للكشف عن فعالية معلومات NLP الأساسية. تظهر النتائج التجريبية مع ثمانية NES أساسية وحوالي 200 نسمة موسعة أن NES يحسن الدقة على الرغم من استخدام نموذج كبير يستند إلى الاحتمالات المدربة باستخدام بيانات نصية 70 جيجابايت.
في هذه الورقة، نقدم نيريل، مجموعة بيانات روسية للتعرف على الكيان المسمى واستخراج العلاقة.نيريل أكبر بكثير من مجموعات البيانات الروسية القائمة: حتى الآن تحتوي على 56 كيلو كيانات المسماة المشروحة وعلاقات مشروحة 39 ألفا.الفرق المهم له من مجموعات البيانا ت السابقة هو شرح للكيانات المسماة المتداخلة، وكذلك العلاقات داخل الكيانات المتداخلة وفي مستوى الخطاب.يمكن أن تسهل نيريل تطوير نماذج جديدة يمكنها استخراج العلاقات بين الكيانات المسماة المتداخلة، وكذلك العلاقات في كل من المستويات والوثائق.يحتوي نيريل أيضا على شرح الأحداث التي تنطوي على الكيانات المسماة وأدوارها في الأحداث.تتوفر مجموعة Nerel عبر https://github.com/nerel-ds/nerel.
أصبح نص قصير في الوقت الحاضر أشكالا أكثر عصرية من البيانات النصية، على سبيل المثال، منشورات Twitter، عناوين الأخبار ومراجعات المنتجات. يلعب استخراج الموضوعات الدلالية من النصوص القصيرة دورا مهما في مجموعة واسعة من تطبيقات NLP، ومصمم الموضوع العصبي ال آن أداة رئيسية لتحقيقها. بدافع من تعلم موضوعات أكثر متماسكا ودلاليا، في هذه الورقة نطور نموذج موضوع عصبي رواية يدعى طراز موضوع الرسم البياني المزدوج Word (DWGTM)، والذي يستخرج الموضوعات من الرسوم البيانية المرتبطة بالكلمة المتزامنة وترابط العلاقة الدلالية. لتكون محددة، نتعلم ميزات كلمة من الرسم البياني العالمي للكلمة المشتركة، وذلك لاستيعاب معلومات حدوث كلمة غنية؛ ثم نقوم بإنشاء ميزات نصية مع ميزات Word، وإطعامها في شبكة تشفير للحصول على نسب موضوعية لكل نص؛ أخيرا، نعيد إعادة بناء الرسوم البيانية الرسمية والكلمات الرسم البياني مع التوزيعات الموضعية وميزات Word، على التوالي. بالإضافة إلى ذلك، لالتقاط دلالات الكلمات، نقوم أيضا بتطبيق ميزات Word لإعادة بناء الرسم البياني للعلاقة الدلالية كلمة محسوبة بواسطة Adgeddings المدربة للكلمة المدربة مسبقا. بناء على هذه الأفكار، نقوم بصياغة DWGTM في نموذج الترميز التلقائي وتدريبه بكفاءة مع روح الاستدلال التباين العصبي. تتحقق النتائج التجريبية التي يمكنها توليد DWGTM موضوعات أكثر متماسكة من النماذج الأساسية من طرازات موضوع الأساس.
يعد الانتباه عبر الانتباه عنصرا هاما للترجمة الآلية العصبية (NMT)، والتي تتحقق دائما عن طريق انتباه DOT-Product في الأساليب السابقة.ومع ذلك، فإن اهتمام DOT-Product يعتبر فقط الارتباط بين الكلمات بين الكلمات، مما أدى إلى تشتت عند التعامل مع جمل طويلة وإهمال العلاقات المجاورة للمصدر.مستوحاة من اللغويات، فإن القضايا المذكورة أعلاه ناجمة عن تجاهل نوع من الاهتمام، الذي يطلق عليه الانتباه المركزي، الذي يركز على عدة كلمات مركزية ثم ينتشر حولها.في هذا العمل، نطبق نموذج خليط غاوسي (GMM) لنموذج الاهتمام المركزي بالاهتمام الشامل.تبين التجارب والتحليلات التي أجريناها على ثلاث مجموعات من مجموعات البيانات أن الطريقة المقترحة تتفوق على خط الأساس ولديها تحسن كبير في جودة المحاذاة ودقة N-Gram والترجمة الحكم الطويلة.
يمكن أن تصدر نماذج الموضوع العصبي أو استبدال مدخلات كيس الكلمات مع التمثيلات المستفادة من نماذج التنبؤ بكلمة التنبؤ المدربة مسبقا مسبقا. تتمثل إحدى فائدة واحدة عند استخدام التمثيلات من النماذج متعددة اللغات هي أنها تسهل نمذجة موضوع الصلاع اللاحق للصف ر. ومع ذلك، في حين أنه لوحظ على نطاق واسع أن المدينات المدربة مسبقا يجب أن يتم ضبطها بشكل جيد لمهمة معينة، فليس من الواضح على الفور ما يجب أن يبدو الإشراف بهذه المهمة غير المزدوجة مثل نمذجة الموضوع. وبالتالي، نقترح عدة طرق لترميز التركيز الدقيق لتحسين كل من النمذجة النمذجة العصبية أحادية الألوان والصفرية. نحن نفكر في ضبط المهام الإضافية، بناء مهمة تصنيف موضوع جديد، دمج هدف تصنيف الموضوع بشكل مباشر في التدريب النموذجي للموضوع، واستمر التدريب قبل التدريب. نجد أن تمثيل تشفير الترميز بشكل جيد على تصنيف الموضوع وإدماج مهمة تصنيف الموضوع مباشرة في نمذجة موضوع يحسن جودة الموضوع، وأن تمثيل التشفير الدقيق في أي مهمة في أي مهمة هي أهم عامل لتسهيل النقل عبر اللغات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا