ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم التحكم بالمعرفة النحوية في نماذج اللغة الصينية الماندرين

Controlled Evaluation of Grammatical Knowledge in Mandarin Chinese Language Models

173   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أظهر العمل السابق أن الإشراف الهيكلية يساعد نماذج اللغة الإنجليزية على تعلم التعميمات حول الظواهر النحوية مثل اتفاقية الفعل الفعل. ومع ذلك، فإنه لا يزال غير واضح إذا كان مثل هذا التحيز الاستقرائي ستحسن أيضا قدرة نماذج اللغة على تعلم التبعيات النحوية بلغات مختلفة من الناحية النموذجية. نحن هنا التحقيق في هذا السؤال في لغة الماندرين الصينية، والتي لديها نظام كتابة من مقدم من لفائف التروج، إلى حد كبير؛ ترتيب كلمة مختلفة و sparser التشكل من الإنجليزية. نحن ندرب LSTMS، ونواسيب الشبكة العصبية المتكررة، ونماذج لغة المحولات، ونماذج تحليل التلال المعلمة للمحول على مجموعات بيانات ماندرين الصينية بأحجام مختلفة. نقيم قدرة النماذج على تعلم جوانب مختلفة من قواعد اللغة الماندرين التي تقييم العلاقات النحوية والدالة. نجد أدلة منهية أن الإشراف الهيكلية يساعد في تمثيل الحالة النحوية عبر المحتوى المتداخلة ويحسن الأداء في إعدادات البيانات المنخفضة، مما يشير إلى أن فوائد التحيزات الاستقرائي التسلسل الهرمي في الحصول على علاقات التبعية قد تتجاوز الإنجليزية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

المعرفة الواقعية المكتسبة أثناء التدريب المسبق وتخزينها في معلمات نماذج اللغة (LMS) يمكن أن تكون مفيدة في مهام المصب (على سبيل المثال، الإجابة على السؤال أو الاستدلال النصي). ومع ذلك، يمكن أن تسبب بعض الحقائق أو تصبح عفا عليها الزمن مع مرور الوقت. نق دم المعلمين، وهي طريقة يمكن استخدامها لتحرير هذه المعرفة، وبالتالي إصلاح الأخطاء أو التنبؤات غير المتوقعة دون الحاجة إلى إعادة تدريب مكلفة أو ضبط جيد. إلى جانب كونها فعالة بشكل حسابي، لا تتطلب المعرفة المعرفة أي تعديلات في LM قبل التدريب (على سبيل المثال، استخدام التعلم التلوي). في نهجنا، نحن ندرب شبكة فرط بتحسين مقيد لتعديل حقيقة دون التأثير على بقية المعرفة؛ ثم يتم استخدام شبكة Hyper المدربة للتنبؤ بتحديث الوزن في وقت الاختبار. نعرض فعالية المعرفة مع اثنين من المهندسينيات الشائعة ومهام المعرفة المكثفة: ط) نموذج بيرت يتم ضبطه بشكل جيد لفحص الحقائق، والثاني) نموذج بارت تسلسل إلى تسلسل للرد على السؤال. من خلال طريقتنا، يميل تغيير التنبؤ بشأن الصياغة المحددة لاستعلامه إلى تغيير متسق في التنبؤ أيضا بصيادتها. نظرا لأن هذا يمكن تشجيعه بشكل أكبر من خلال استغلال الصياغة (على سبيل المثال، التي تم إنشاؤها تلقائيا) أثناء التدريب. ومن المثير للاهتمام، أن شبكة فرط لدينا يمكن اعتبارها مسبار "تكشف عن مكونات يجب تغييرها لمعالجة المعرفة الواقعية؛ يوضح تحليلنا أن التحديثات تميل إلى التركيز على مجموعة فرعية صغيرة من المكونات. شفرة المصدر المتاحة في https://github.com/nicola-decao/knowegleditor
يتطلب تصحيح الأخطاء النحوية (GEC) مجموعة من أزواج الجملة الجملة / النحوية المسمى للتدريب، ولكن الحصول على مثل هذه التوضيحية يمكن أن تكون باهظة الثمن. في الآونة الأخيرة، أظهر إطار عمل استراحة IT-IT (BIFI) نتائج قوية على تعلم إصلاح برنامج مكسور دون أي أمثلة معدنية، ولكن هذا يعتمد على ناقد مثالي (على سبيل المثال، مترجم) يعيد ما إذا كان المثال صحيحا أم لا، والتي غير موجودة لمهمة GEC. في هذا العمل، نظهر كيفية الاستفادة من نموذج اللغة المسبق (LM) في تحديد LM-RIDIC، الذي يحكم جملة على النحو الحكم إذا قام LM بتعيينه احتمال أعلى من اضطراباتها المحلية. نحن نطبق هذا LM-CRERTIC و BIFI جنبا إلى جنب مع مجموعة كبيرة من الجمل غير المسبقة إلى Bootstrap أزواج حقيقية غير رسمية / نحوية لتدريب مصحح. نقيم نهجنا على مجموعات بيانات GEC على مجالات متعددة (CONLL-2014، BEA-2019، GMEG-WIKI و GMEG-Yahoo) وإظهار أنه يتفوق على الأساليب الموجودة في كل من الإعداد غير المقترح (+7.7 F0.5) والإعداد الإشرافي (+0.5 F0.5).
في هذه الورقة، نقترح آلية تسريب المعرفة لإدماج معرف المجال إلى محولات اللغة. يعتبر البيانات الخاضعة للإشراف ضعيفا كمصدر رئيسي للاستحواذ على المعرفة. نحن ندرب نماذج اللغة مسبقا لالتقاط المعرفة الملثمين بالتركيز والجوانب ثم قم بضبطها للحصول على أداء أف ضل على مهام المصب. نظرا لعدم وجود مجموعات بيانات متوفرة للجمهور لتصنيف متعدد التسميات للأسئلة الطبية الصينية، زحفنا أسئلة من منتديات السؤال الطبي / الإجابة وشرحتها يدويا باستخدام ثمانية فصول محددة مسبقا: الأشخاص والمنظمات، والأعراض، والسبب، والفحص والمرض، والمعلومات، المكون، والعلاج. أخيرا، ما مجموعه 1814 سؤالا مع 2،340 ملميا. يحتوي كل سؤال على متوسط ​​1.29 ملصقات. استخدمنا موسوعة بايدو الطبية كمورد المعرفة. تم تنفيذ برت محولين وروبرتا لمقارنة الأداء على مجموعات بياناتنا المبنية. أظهرت النتائج التجريبية أن نموذجنا المقترح مع آلية ضخ المعرفة يمكن أن يحقق أداء أفضل، بغض النظر عن متري التقييم بما في ذلك ماكرو F1 أو مايكرو F1 أو الدقة المزدوجة الواردة في الدقة الفرعية.
إن اختيار المصنف الأكثر ملاءمة في السياق اللغوي هو مشكلة معروفة في إنتاج الماندرين والعديد من اللغات الأخرى.تقترح هذه الورقة حل استنادا إلى بيرت، ويقارن هذا الحل إلى النماذج السابقة العصبية والقواعد السابقة، ويقال أن نموذج Bert ينفذ بشكل خاص بشكل جيد على تلك الحالات الصعبة التي يضيف فيها المصنف معلومات إلى النص.
عادة ما تستخدم قواعد المعرفة العلوية (KBS) لتمثيل المعرفة العالمية في الآلات. ومع ذلك، في حين أن مفيدة لدرجة عالية من الدقة والتفسيرية، عادة ما يتم تنظيم KBS وفقا للخطط المعرفة يدويا، والتي تحد من تعبيرها وتتطلب جهود إنسانية كبيرة للمهندس والصيانة. ف ي هذا الاستعراض، نأخذ منظور معالجة لغات طبيعية لهذه القيود، وفحص كيفية معالجةها جزئيا من خلال تدريب نماذج اللغة السياقية العميقة (LMS) لاستيعابها والتعبير عن المعرفة العلاجية بأشكال أكثر مرونة. نقترح تنظيم استراتيجيات تمثيل المعرفة في LMS بواسطة مستوى إشراف KB المقدمة، من أي إشراف KB على الإشراف على مستوى الكيان والعلاقات. مساهماتنا هي ثلاثة أضعاف: (1) نحن نقدم تصنيفا رفيع المستوى، توسع لتمثيل المعرفة في LMS؛ (2) ضمن تصنيفنا، نسلط الضوء على النماذج البارزة ومهام التقييم والنتائج، من أجل تقديم استعراض محدث لقدرات تمثيل المعرفة الحالية في LMS؛ و (3) نقترح اتجاهات البحث في المستقبل التي تبني على الجوانب التكميلية ل LMS و KBS كتمثيل المعرفة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا