ترغب بنشر مسار تعليمي؟ اضغط هنا

نظام تعليمي عميق لاستخراج المعلومات اللغوية التلقائية من قواعد النمسات الوصفية

A Deep Learning System for Automatic Extraction of Typological Linguistic Information from Descriptive Grammars

420   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

النمطية اللغوية هي مجال من اللغويات المعنية بتحليل ومقارنة بين اللغات الطبيعية للعالم بناء على ميزاتها اللغوية المعينة. لهذا الغرض، تاريخيا، اعتمدت المنطقة على استخراج يدوية لقيم الميزات اللغوية من الأوصاف النصية للغات. هذا يجعلها مهمة شاقة وطولها باهظة الثمن وهي ملزمة أيضا بسعة الدماغ البشرية. في هذه الدراسة، نقدم نظام تعليمي عميق لمهمة الاستخراج التلقائي للميزات اللغوية من الأوصاف النصية للغات الطبيعية. أولا، يتم تسجيل أوصاف نصية يدويا مع هياكل خاصة تسمى الإطارات الدلالية. يتم تعلم تلك التعليقات التوضيحية من خلال شبكة عصبية متكررة، والتي تستخدم بعد ذلك لتعليق النص غير المشروح. أخيرا، يتم تحويل التعليقات التوضيحية إلى قيم ميزة اللغوية باستخدام وحدة نمطية قائمة على القاعدة. يتم استخدام Tembeddings Word، المستفادة من نص الأغراض العامة، كمصدر رئيسي للمعرفة من قبل الشبكة العصبية المتكررة. قارنا نظام التعلم العميق المقترح للنظام القائم على نظام التعلم الذي تم الإبلاغ عنه مسبقا لنفس المهمة، ويفوز نظام التعلم العميق من حيث درجات F1 بهامش عادل. من المتوقع أن يكون هذا النظام مساهمة مفيدة للجنة التلقائية لقواعد البيانات النموذجية، والتي يتم تطويرها يدويا.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

اعتمدت نهج استخراج المعلومات الحديثة على تدريب النماذج العصبية العميقة. ومع ذلك، يمكن أن تتجاوز هذه النماذج بسهولة الملصقات الصاخبة وتعاني من تدهور الأداء. في حين أنه من المكلف للغاية تصفية الملصقات الصاخبة في موارد تعليمية كبيرة، فإن الدراسات الحديث ة تظهر أن مثل هذه الملصقات تتخذ المزيد من الخطوات التدريبية التي سيتم حفظها وتكون نسيانها بشكل أكثر تواترا من الملصقات النظيفة، وبالتالي يتم تحديدها في التدريب. بدافع من هذه الخصائص، نقترح إطارا بسيطا بانتظام بسيطة لاستخراج المعلومات التركز على الكيان، والذي يتكون من العديد من النماذج العصبية مع هياكل متطابقة ولكن تهيئة معلمة مختلفة. يتم تحسين هذه النماذج بشكل مشترك مع الخسائر الخاصة بالمهمة ويتم تنظيمها لتوليد تنبؤات مماثلة تستند إلى فقدان اتفاقية، تمنع التجديدات الخارجية على الملصقات الصاخبة. تظهر تجارب واسعة على نطاق واسع على نطاق واسع ولكن صاخبة لاستخراج المعلومات، Tacred و Conll03، فعالية إطار عملنا. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.
نحن برعاية Wikipii، وهي مجموعة بيانات مسمى تلقائيا تتكون من صفحات سيرة Wikipedia، مشروحة لاستخراج المعلومات الشخصية. على الرغم من أن التوضيح التلقائي يمكن أن يؤدي إلى درجة عالية من الضوضاء التسمية، إلا أنها عملية غير مكلفة ويمكن أن تولد كميات كبيرة م ن المستندات المشروح. قمنا بتدريب نموذج NER مقره BERT مع Wikipii وأظهر أنه مع مجموعة بيانات تدريبية كبيرة بشكل مناسب، يمكن أن يقلل النموذج بشكل كبير من تكلفة استخراج المعلومات اليدوية، على الرغم من المستوى العالي من الضوضاء التسمية. في نهج مماثل، يمكن للمنظمات الاستفادة من تقنيات التعدين النصية لإنشاء مجموعات بيانات مخصصة مشروحة من بياناتها التاريخية دون مشاركة البيانات الخام للتعليق البشري البشري. أيضا، نستكشف التدريب التعاوني للنماذج NER من خلال التعلم الفيدرالي عندما يكون التوضيحي صاخبا. تشير نتائجنا إلى أنه اعتمادا على مستوى الثقة إلى مشغل ML وحجم البيانات المتاحة، يمكن أن يكون التدريب الموزع طريقة فعالة لتدريب معرف معلومات شخصي بطريقة محفوظة خصوصية. المواد البحثية متاحة في https://github.com/ratmcu/wikipiifed.
استخراج المعلومات والمسألة الإجابة على إمكانية إدخال نموذج جديد لكيفية تطبيق تعلم الجهاز على القانون الجنائي. الأساليب الحالية تستخدم عموما البيانات الجدولية للمقاييس التنبؤية. هناك حاجة إلى نهج بديل لمسائل العدالة العادلة، حيث يتم الحكم على الأفراد على أساس كل حالة على حدة، في عملية تنطوي على مناقشة شفهية أو مكتوبة عوامل الحالات. هذه المناقشات فردية، لكنها تعتمد على الحقائق الأساسية. استخراج المعلومات يمكن أن يلعب دورا مهما في تصفح هذه الحقائق، والتي لا تزال مهمة لفهمها. نقوم بتحليل قدرة النماذج غير الخاضعة للإشراف وإشرافها مسبقا على استخراج هذه المعلومات الواقعية من حوار النماذج الحر لسجناء كاليفورنيا الإفراج المشروط. مع استثناءات قليلة، فإن معظم درجات F1 أقل من 0.85. نحن نستخدم هذه الفرصة لتسليط الضوء على بعض الفرص لمزيد من البحث لاستخراج المعلومات والرد على الأسئلة. نحن نشجع التطورات الجديدة في NLP لتمكين التحليل ومراجعة القضايا القانونية التي يتعين القيام بها بطريقة ما بعد الهوك، وليس التنبؤ بها.
استخراج العلاقات على مستوى المستند يهدف إلى تحديد العلاقات بين الكيانات في وثيقة كاملة. اعتمدت الجهود السابقة لالتقاط التبعيات البعيدة المدى اعتمادا كبيرا على تمثيلات قوية ضمنيا تعلمت من خلال (الرسم البياني) الشبكات العصبية، مما يجعل النموذج أقل شفاف ية. لمعالجة هذا التحدي، في هذه الورقة، نقترح Logire، نموذج احتمالي رواية لاستخراج العلاقة على مستوى المستند من خلال قواعد المنطق التعلم. يعامل Logire القواعد المنطقية مثل المتغيرات الكامنة وتتكون من وحدات اثنين: مولد القاعدة واستخراج العلاقة. إن مولد القاعدة هو توليد قواعد المنطق التي يحتمل أن تسهم في التنبؤات النهائية، ونضول النازع العلاقة تنبؤات نهائية بناء على قواعد المنطق التي تم إنشاؤها. يمكن تحسين هاتين الوحداتتين بكفاءة مع خوارزمية التوقعات (EM). من خلال إدخال القواعد المنطقية في الشبكات العصبية، يمكن ل Rogire أن تلتقط الصريح التبعيات طويلة المدى وكذلك الاستمتاع بتفسير أفضل. تظهر النتائج التجريبية أن تتفوق بشكل كبير على العديد من خطوط الأساس القوية من حيث الأداء العلاقة والاتساق المنطقي. يتوفر الكود الخاص بنا في https://github.com/rudongyu/logire.
استخدمت نظم استخلاص العلاقة استخداماً واسعاً للميزات المولدة من وحدات التحليل اللغوي. إذ تؤدي الأخطاء في هذه المميزات إلى أخطاء في كشف العلاقة و تصنيفها. في هذا البحث، نخرج من هذه الطرق التقليدية مع بنية مميز معقدة من خلال تقديم الشبكات العصبونية الالتفافية لاستخلاص العلاقة التي تتعلم تلقائيا ميزات من الجمل و تقلل من الاعتماد على مجموعة الأدوات و المصادر الخارجية. نموذجنا يأخذ مزايا أحجام لنوافذ متعددة للمرشحات و تضمينات الكلمة المدربة سابقا كدخل لبنية غير ثابتة لتحسين الأداء.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا