ترغب بنشر مسار تعليمي؟ اضغط هنا

تحريض PCFG القائم على الأحرف لنمذجة الاستحواذ النحوي للغات الغنية المورفولوجية

Character-based PCFG Induction for Modeling the Syntactic Acquisition of Morphologically Rich Languages

161   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن استخدام نماذج التعريفات PCFG غير المزودة، والتي تبني الهياكل النحوية من النص الخام، لتقييم مدى ما يمكن الحصول على المعرفة النحوية من المعلومات التوزيعية وحدها. ومع ذلك، فإن العديد من نماذج تحريض PCFG الحديثة مقرها بكلمات، مما يعني أنها لا يمكنها فحص التصفيات الوظيفية مباشرة، والتي قد تقدم معلومات حاسمة للحصول على الاستحواذ النحوي في المتعلمين الأطفال. يقدم هذا العمل أولا نموذج تحريض PCFG العصبي يسمح بإجراء عصبي نظيف لتأثير معلومات الكلمات الفرعية في الحث القوي. توضح تجارب الخطاب الموجهة للأطفال أولا أن إدراج معلومات الكلمات الفرعية ينتج عنه قواعد النمسات الأكثر دقة مع فئات أن نماذج التعريفات المستندة إلى الكلمة لديها صعوبة في العثور، وثانيا أن هذا التأثير يتم تضخيمه في لغات أكثر ثراء مورفولوجية التي تعتمد على التصفيات الوظيفية للتعبير عنها علاقات. يوضح التقييم اللاحق على Treebanks متعددة اللغات أن النموذج مع معلومات الكلمات الفرعية يحقق نتائج أحدث النتائج في العديد من اللغات، مما يدعم نموذج توزيعي للكتساب النحوي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

شهدت الترجمة الآلية التقدم السريع مع ظهور النماذج القائمة على المحولات. لا تحتوي هذه النماذج على هيكل لغوي صريح مبني عليهم، ومع ذلك فقد لا يزالون لا يزالون يتعلمون ضمنيا علاقات منظمة من خلال حضور الرموز ذات الصلة. نحن نفترض أن هذا التعلم الهيكلي أكثر قوة من خلال مرفق المحولات بشكل صريح مع التحيز الهيكلية، ونحن نحقق في طريقتين للبناء في مثل هذا التحيز. طريقة واحدة، TP-Transformer، تزيد من بنية المحولات التقليدية لتضمين مكون إضافي لتمثيل الهيكل. الطريقة الثانية تغلق الهيكل على مستوى البيانات عن طريق تجزئة البيانات مع التوت التمييز المورفولوجي. نختبر هذه الأساليب على الترجمة من الإنجليزية إلى لغات غنية مورفولوجية، التركية والأجنبية، والنظر في المقاييس التلقائية والتقييمات البشرية. نجد أن كل هذين من النهجين يسمح للشبكة لتحقيق أداء أفضل، ولكن هذا التحسين يعتمد على حجم مجموعة البيانات. باختصار طرق الترميز الهيكلية تجعل المحولات أكثر كفاءة عينة، مما يتيح لهم الأداء بشكل أفضل من كميات أصغر من البيانات.
التنسيق هو ظاهرة اللغة التي تصدر شرطين أو أكثر من العبارات أو العبارات باستخدام التنسيق. على الرغم من أن التنسيق قد تم استكشافه على نطاق واسع في أدب اللغويات، فإن القواعد والقيود التي تحكم هيكلها لا تزال بعيد المنال إلى حد كبير وناقشت على نطاق واسع ب ين اللغويين. تقدم هذه الورقة دراسة لوجود تنسيقات على عكس المدىين على وجه الخصوص، حيث يشكل الزوجان من عبارة التنسيق مكونا صالحين ولكن لديهم فئات مميزة. أجرينا تحليلا نصنيا لفئات الجمل الفعلية التي يمكن ارتباطها في مثل هذه التنسيقات على عكس ذلك من خلال نهج محاسبي قائم على الكائنات الحاسوبية، باستخدام كوربوس اللغة الإنجليزية الأمريكية المعاصرة (COCA) كمصدر بيانات رئيسي، بالإضافة إلى بنك بنسار (PTB) وبعد تظهر النتائج أن اثنين من الالتحاق داخل التنسيقات على عكس عرض خصائص مختلفة بناء على موقفها، ودعم عرض مضاد للتنسيق لهيكل التنسيق. يوفر هذا البحث بيانات ووجهات نظر جديدة من خلال استخدام التقنيات الإحصائية التي يمكن أن تساعد في تشكيل نظريات ونماذج التنسيق في المستقبل.
في هذه الورقة، فإننا نطبق غير المدعومة غير المدعومة باعتبارها مهمة جديدة في تحريض الهيكل النحوي، والتي مفيدة لفهم الهياكل اللغوية للغات البشرية وكذلك معالجة لغات الموارد المنخفضة.نقترح اتباع نهج نقل المعرفة بأنه يسخر بشكل مسبق تسميات القطعة من نماذج التحليل غير المنصوص عليها في الحديث؛يتعلم الشبكة العصبية التسلسلية المتكررة (HRNN) من هذه الملصقات المستحثة من الفرق لتسليم ضجيج الاستدلال.تبين التجارب أن نهجنا يجسد إلى حد كبير الفجوة بين الكملات الخاضعة للإشراف وغير المدعوم.
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات لمساعدة الباحثين والممارسين على فهم التحديات التي يفرضونها على مهام NER.نقوم بتحليل مجموعات البيانات لدينا وإجراء تقييم تجريبي واسع النطاق للطرق الحكومية في جميع إعدادات التعلم الإشراف والنقل.أخيرا، نطلق سراح البيانات والرمز والنماذج لإلهام البحوث المستقبلية على الأفريقية NLP.1
يتم تعريف Sememes على أنها الوحدات الذرية لوصف المعنى الدلالي للمفاهيم.نظرا لصعوبة التعليق يدويا في التسجيل يدويا واستنادا إلى التعليق بين الخبراء، فقد تم اقتراح مهمة تنبؤات النظرة المعجمية.ومع ذلك، فإن الأساليب السابقة تعتمد بشدة على Word أو Artters dings، وتجاهل المعلومات المحبوسة الدقيقة.في هذه الورقة، نقترح طريقة رواية ما قبل التدريب والتي تم تصميمها لتحسين دمج المعلومات الداخلية للشخصية الصينية.يتم استخدام تمثيل الأحرف الصيني المحسنة Glyph (دول مجلس التعاون الخليجي) لمساعدة تنبؤة النظر.نقوم بتجربة وتقييم النموذج لدينا على HOWNET، وهو قاعدة المعرفة الشمالية الشهيرة.تظهر النتائج التجريبية أن أسلوبنا تتفوق على نماذج المعلومات غير الخارجية الموجودة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا