ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين معالجة اللغة العصبية مع الكيانات المسماة

Improving Neural Language Processing with Named Entities

224   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أظهرت نماذج الشبكة العصبية المستندة إلى ما يحقظ أن عروض حديثة (SOTA) على مهام معالجة اللغة الطبيعية (NLP). تعد تمثيل الجملة الأكثر استخداما لأساليب NLP ذات الاستخدام العصبي سلسلة من الكلمات الفرعية المختلفة عن تمثيل الجملة من الأساليب غير العصبية التي يتم إنشاؤها باستخدام تقنيات NLP الأساسية، مثل العلامات على جزء من الكلام (POS)، اسمه الكيان (NE) الاعتراف، والتحليل. تتلقى معظم نماذج NLP ذات القائمة العصبية فقط ناقلات ترميزها من سلسلة من الكلمات الفرعية التي تم الحصول عليها من نص الإدخال. ومع ذلك، لا يمكن الحصول على معلومات NLP الأساسية، مثل علامات نقاط البيع، ونتائج NES، وتحليل النتائج، إلخ، بشكل صريح من النص الكبير غير المستخديم المستخدمة في النماذج المستندة إلى ما يحقظ. تستكشف هذه الورقة استخدام NES على مهمتين يابانيين؛ تصنيف المستندات والجيل الرئيسي باستخدام النماذج القائمة على المحولات، للكشف عن فعالية معلومات NLP الأساسية. تظهر النتائج التجريبية مع ثمانية NES أساسية وحوالي 200 نسمة موسعة أن NES يحسن الدقة على الرغم من استخدام نموذج كبير يستند إلى الاحتمالات المدربة باستخدام بيانات نصية 70 جيجابايت.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تستكشف هذه المقالة إمكانية معالجة اللغات الطبيعية (NLP) لتمكين نموذج شرطة مركزة وأقل فعالية وأقل من المواجهة التي كانت تستهلك حتى الآن من الموارد لتنفيذ الحجم. الشرطة المنحى للمشاكل (البوب) هي استبدال محتمل، على الأقل جزئيا، بالنسبة للشرطة التقليدية التي تعتمد نهجا تفاعلا، تعتمد اعتمادا كبيرا على نظام العدالة الجنائية. على النقيض من ذلك، يسعى البوب ​​لمنع الجريمة من خلال التلاعب بالظروف الأساسية التي تسمح بالارتكاب الجرائم. يتطلب تحديد هذه الشروط الأساسية فهما مفصلا لأحداث الجريمة - معرفة ضمنية تعقد غالبا من قبل ضباط الشرطة ولكن يمكن أن تكون صعبة للغاية للاستمتاع ببيانات الشرطة المهيكلة. يوجد أحد المصدر المحتمل للنصية في بيانات نصية مجانية غير منظمة تجمعها الشرطة لأغراض التحقيق أو الإدارة. ومع ذلك، فإن وكالات الشرطة لا تحتوي عادة على المهارات أو الموارد لتحليل هذه البيانات على نطاق واسع. في هذه المقالة، نقول أن NLP يقدم القدرة على فتح هذه البيانات غير المنظمة وبالتالي السماح للشرطة بتنفيذ المزيد من مبادرات البوب. ومع ذلك، نحذر أن استخدام نماذج NLP دون معرفة كافية قد يسمح إما بإدخال التحيز داخل البيانات التي تؤدي إلى نتائج غير مواتية.
في هذه الورقة، نقدم نيريل، مجموعة بيانات روسية للتعرف على الكيان المسمى واستخراج العلاقة.نيريل أكبر بكثير من مجموعات البيانات الروسية القائمة: حتى الآن تحتوي على 56 كيلو كيانات المسماة المشروحة وعلاقات مشروحة 39 ألفا.الفرق المهم له من مجموعات البيانا ت السابقة هو شرح للكيانات المسماة المتداخلة، وكذلك العلاقات داخل الكيانات المتداخلة وفي مستوى الخطاب.يمكن أن تسهل نيريل تطوير نماذج جديدة يمكنها استخراج العلاقات بين الكيانات المسماة المتداخلة، وكذلك العلاقات في كل من المستويات والوثائق.يحتوي نيريل أيضا على شرح الأحداث التي تنطوي على الكيانات المسماة وأدوارها في الأحداث.تتوفر مجموعة Nerel عبر https://github.com/nerel-ds/nerel.
مجردة التعرف على الكيانات المسماة (NER) هي مهمة NLP الأساسية، والتي صاغها عادة كتصنيف على سلسلة من الرموز. تشكل اللغات الغنية المورفولوجية (MRLS) تحديا لهذه الصياغة الأساسية، حيث لا تتزامن حدود الكيانات المسماة بالضرورة مع حدود الرمز المميز، بل يحترم ون الحدود المورفولوجية. لمعالجة NER في MRLS، نحتاج إلى الإجابة عن أسئلتين أساسيتين، وهي، ما هي الوحدات الأساسية التي سيتم تسميةها، وكيف يمكن الكشف عن هذه الوحدات وتصنيفها في إعدادات واقعية (أي، حيث لا يتوفر مورفولوجيا ذهبية). نحن نحقق تجريبيا في هذه الأسئلة حول معيار NENT الجديد، مع الشروح النيرية المتوازية من المستوى المتوازي ومستوى مورفيم، والتي نطورنا للعبرية الحديثة، وهي لغة غنية بالغريات المورفولوجية. تظهر نتائجنا أن النمذجة الصرخة على حدود مورفولوجية تؤدي إلى تحسين الأداء النيري، وأن الهندسة المعمارية المختلطة الهجينة، التي يسبقها ner يسبقها التحلل المورفولوجي، تتفوق بشكل كبير على خط الأنابيب القياسي، حيث يسبق التحلل المورفولوجي بشكل صارم NER، وضع شريط أداء جديد لكليهما العبرية NER والعبرية المهام المورفولوجية.
في هذه الورقة، نقترح إطار جيل عصبي قابل للتحكم يمكن أن توجه بمرونة تلخيص الحوار مع تخطيط الكيانات المسماة الشخصية. يتم تعديل التسلسلات الشرطية لتحديد أنواع المعلومات أو منظور التركيز عند تشكيل ملخصات لمعالجة المشكلة الخاضعة للحدود في مهام التلخصات. ي دعم هذا الإطار نوعين من حالات الاستخدام: (1) منظور شامل، وهو حالة غرض لأغراض عامة مع عدم تحديد تفضيل المستخدم، بالنظر إلى نقاط موجزة من جميع محطات المحادثة والأشخاص المذكورين؛ (2) منظور التركيز، ضع الملخص بناء على كيان شخصي محدد من قبل المستخدم، والتي يمكن أن تكون واحدة من المحاورين أو أحد الأشخاص المذكورين في المحادثة. أثناء التدريب، استغلنا تخطيط حدوثها للكيانات المسماة الشخصية ومعلومات العناية الأساسية لتحسين الاتساق الزمني وتقليل الهلوسة في الجيل العصبي. تظهر النتائج التجريبية أن إطار عملنا المقترح يولد ملخصات بطلاقة ومتسقة في الواقع بموجب ضوابط التخطيط المختلفة باستخدام المقاييس الموضوعية والتقييمات البشرية.
نماذج الترجمة العصبية متعددة اللغات تعامل مع لغة مصدر واحدة في وقت واحد.ومع ذلك، فقد أظهر العمل السابق أن الترجمة من لغات مصدر متعددة تعمل على تحسين جودة الترجمة.تختلف عن الأساليب الحالية على الترجمة المتعددة المصدر التي تقتصر على سيناريو الاختبار حي ث تتوفر جمل مصدر مواز من لغات متعددة في وقت الاستدلال، نقترح تحسين الترجمة متعددة اللغات في سيناريو أكثر شيوعا من خلال استغلال جمل المصدر الاصطناعية من اللغات المساعدة.نحن ندرب نموذجنا على شركة Synthetic متعددة المصدر، وتطبيق اخفاء عشوائي لتمكين الاستدلال المرن مع مدخلات مصدر واحد أو مصدر ثنائي.تجارب واسعة النطاق على الصينية / الإنجليزية - اليابانية ومقاييس الترجمة متعددة اللغات على نطاق واسع تشير إلى أن طرازنا يتفوق على خط الأساس متعدد اللغات بشكل كبير من أعلى إلى +4.0 بلو مع أكبر تحسينات على أزواج اللغات المنخفضة أو البعيدة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا