النمطية اللغوية هي مجال من اللغويات المعنية بتحليل ومقارنة بين اللغات الطبيعية للعالم بناء على ميزاتها اللغوية المعينة. لهذا الغرض، تاريخيا، اعتمدت المنطقة على استخراج يدوية لقيم الميزات اللغوية من الأوصاف النصية للغات. هذا يجعلها مهمة شاقة وطولها باهظة الثمن وهي ملزمة أيضا بسعة الدماغ البشرية. في هذه الدراسة، نقدم نظام تعليمي عميق لمهمة الاستخراج التلقائي للميزات اللغوية من الأوصاف النصية للغات الطبيعية. أولا، يتم تسجيل أوصاف نصية يدويا مع هياكل خاصة تسمى الإطارات الدلالية. يتم تعلم تلك التعليقات التوضيحية من خلال شبكة عصبية متكررة، والتي تستخدم بعد ذلك لتعليق النص غير المشروح. أخيرا، يتم تحويل التعليقات التوضيحية إلى قيم ميزة اللغوية باستخدام وحدة نمطية قائمة على القاعدة. يتم استخدام Tembeddings Word، المستفادة من نص الأغراض العامة، كمصدر رئيسي للمعرفة من قبل الشبكة العصبية المتكررة. قارنا نظام التعلم العميق المقترح للنظام القائم على نظام التعلم الذي تم الإبلاغ عنه مسبقا لنفس المهمة، ويفوز نظام التعلم العميق من حيث درجات F1 بهامش عادل. من المتوقع أن يكون هذا النظام مساهمة مفيدة للجنة التلقائية لقواعد البيانات النموذجية، والتي يتم تطويرها يدويا.
Linguistic typology is an area of linguistics concerned with analysis of and comparison between natural languages of the world based on their certain linguistic features. For that purpose, historically, the area has relied on manual extraction of linguistic feature values from textural descriptions of languages. This makes it a laborious and time expensive task and is also bound by human brain capacity. In this study, we present a deep learning system for the task of automatic extraction of linguistic features from textual descriptions of natural languages. First, textual descriptions are manually annotated with special structures called semantic frames. Those annotations are learned by a recurrent neural network, which is then used to annotate un-annotated text. Finally, the annotations are converted to linguistic feature values using a separate rule based module. Word embeddings, learned from general purpose text, are used as a major source of knowledge by the recurrent neural network. We compare the proposed deep learning system to a previously reported machine learning based system for the same task, and the deep learning system wins in terms of F1 scores with a fair margin. Such a system is expected to be a useful contribution for the automatic curation of typological databases, which otherwise are manually developed.
المراجع المستخدمة
https://aclanthology.org/
اعتمدت نهج استخراج المعلومات الحديثة على تدريب النماذج العصبية العميقة. ومع ذلك، يمكن أن تتجاوز هذه النماذج بسهولة الملصقات الصاخبة وتعاني من تدهور الأداء. في حين أنه من المكلف للغاية تصفية الملصقات الصاخبة في موارد تعليمية كبيرة، فإن الدراسات الحديث
نحن برعاية Wikipii، وهي مجموعة بيانات مسمى تلقائيا تتكون من صفحات سيرة Wikipedia، مشروحة لاستخراج المعلومات الشخصية. على الرغم من أن التوضيح التلقائي يمكن أن يؤدي إلى درجة عالية من الضوضاء التسمية، إلا أنها عملية غير مكلفة ويمكن أن تولد كميات كبيرة م
استخراج المعلومات والمسألة الإجابة على إمكانية إدخال نموذج جديد لكيفية تطبيق تعلم الجهاز على القانون الجنائي. الأساليب الحالية تستخدم عموما البيانات الجدولية للمقاييس التنبؤية. هناك حاجة إلى نهج بديل لمسائل العدالة العادلة، حيث يتم الحكم على الأفراد
استخراج العلاقات على مستوى المستند يهدف إلى تحديد العلاقات بين الكيانات في وثيقة كاملة. اعتمدت الجهود السابقة لالتقاط التبعيات البعيدة المدى اعتمادا كبيرا على تمثيلات قوية ضمنيا تعلمت من خلال (الرسم البياني) الشبكات العصبية، مما يجعل النموذج أقل شفاف
استخدمت نظم استخلاص العلاقة استخداماً واسعاً للميزات المولدة من وحدات التحليل
اللغوي. إذ تؤدي الأخطاء في هذه المميزات إلى أخطاء في كشف العلاقة و تصنيفها. في
هذا البحث، نخرج من هذه الطرق التقليدية مع بنية مميز معقدة من خلال تقديم الشبكات
العصبونية