ترغب بنشر مسار تعليمي؟ اضغط هنا

غير مدفوع غير منشأة كتعديل هيكل النحوي مع نهج نقل المعرفة

Unsupervised Chunking as Syntactic Structure Induction with a Knowledge-Transfer Approach

277   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، فإننا نطبق غير المدعومة غير المدعومة باعتبارها مهمة جديدة في تحريض الهيكل النحوي، والتي مفيدة لفهم الهياكل اللغوية للغات البشرية وكذلك معالجة لغات الموارد المنخفضة.نقترح اتباع نهج نقل المعرفة بأنه يسخر بشكل مسبق تسميات القطعة من نماذج التحليل غير المنصوص عليها في الحديث؛يتعلم الشبكة العصبية التسلسلية المتكررة (HRNN) من هذه الملصقات المستحثة من الفرق لتسليم ضجيج الاستدلال.تبين التجارب أن نهجنا يجسد إلى حد كبير الفجوة بين الكملات الخاضعة للإشراف وغير المدعوم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعرف نوعية وكمية الجمل الموازية كبيانات تدريبية مهمة للغاية لبناء أنظمة الترجمة الآلية العصبية (NMT).ومع ذلك، فإن هذه الموارد غير متوفرة للعديد من أزواج لغة الموارد المنخفضة.تحتاج العديد من الطرق الحالية إلى إشراف قوي غير مناسب.على الرغم من أن عدة مح اولات في تطوير نماذج غير مدفوعة، إلا أنها تتجاهل اللغة الثابتة بين اللغات.في هذه الورقة، نقترح نهجا يستند إلى التعلم عن الجمل الموازية المتعلقة بالألغام في الإعداد غير المنسق. مع مساعدة من أزواج اللغة الثنائية الثنائية من الأغنياء، يمكننا الجمل الموازية دون إشراف ثنائي اللغة أزواج لغة منخفضة الموارد.تظهر التجارب أن نهجنا يحسن أداء الجمل الموازية الملغومة مقارنة بالطرق السابقة.على وجه الخصوص، نحقق نتائج ممتازة في اثنين من أزواج لغة الموارد المنخفضة في العالم الحقيقي.
تعليق المستخدم هو ميزة قيمة للعديد من المنافذ الإخبارية، مما يتيح لهم اتصال مع القراء وتمكين القراء للتعبير عن رأيهم، وتوفير وجهات نظر مختلفة، وحتى المعلومات التكميلية. ومع ذلك، من الصعب تصفية كميات كبيرة من تعليقات المستخدمين، ناهيك عن قراءة واستخرا ج المعلومات ذات الصلة. لا يزال البحث في تلخيص تعليقات المستخدمين في مهده، ومجموعات بيانات التلخيص التي تم إنشاؤها الإنسان نادرة، خاصة بالنسبة لغات أقل الموارد. لمعالجة هذه المشكلة، نقترح نهج غير مدعوم لتلخيص تعليقات المستخدم، والذي يستخدم تمثيل حديث متعدد اللغات للجمل جنبا إلى جنب مع تقنيات تلخيص الاستخراج القياسية. تقارننا مناهج تمثيل الجملة المختلفة مقترن بنهج تلخيص مختلفة يدل على أن أكثر المجموعات ناجحة هي نفسها في الأخبار وتلخيص التعليق. النتائج التجريبية وعرضت تصور تظهر فائدة المنهجية المقترحة لعدة لغات.
تأخذ مهمة نقل النمط (النمط هنا بمعنى "هنا" مع العديد من الجوانب بما في ذلك التسجيل، وهيكل الجملة، واختيار المفردات) إجراء إدخال النص وإعادة كتابةها في نمط مستهدف محدد يحافظ على المعنى، ولكن تغيير نمط نص المصدر لمطابقة ذلك من الهدف. يعتمد الكثير من ال أبحاث الموجودة في هذه المهمة على استخدام مجموعات البيانات المتوازية. في هذا العمل، نوظف نتائج مؤخرا في نمذجة اللغة المتقاطعة غير المتبادلة (XLM) والترجمة الآلية لنقل النمط أثناء التعامل مع بيانات الإدخال كما غير إجمالي. أولا، نوضح أن إضافة تضمين المحتوى "" إلى XLM والتي تلتقط مجموعة الموضوعات المحددة للإنسان يمكن أن تحسن الأداء على الطراز الأساسي. غالبا ما تعتمد تقييم نقل النمط على المقاييس المصممة للترجمة الآلية التي تلقت انتقاد مدى ملاءمتها لهذه المهمة. كمساهمة ثانية، نقترح استخدام مجموعة من الأنماط الكلاسيكية ككمل مفيد للتقييم. نقوم باختيار بعض هذه التدابير وتشمل هذه في تحليل نتائجنا.
استخراج العلاقات غير المدعومة من قبل أزواج كيان التجمع التي لها نفس العلاقات في النص. تقوم بعض الأساليب المتنوعة (VAE) المتنوعة (VAE) بتدريب نموذج استخراج العلاقة كترفيه يولد تصنيفات العلاقة. يتم تدريب وحدة فك الترميز جنبا إلى جنب مع التشفير لإعادة ب ناء إدخال التشفير بناء على تصنيفات العلاقة التي يتم إنشاؤها المشن. هذه التصنيفات هي متغير كامن حتى يطلب منهم اتباع توزيع مسبق محدد مسبقا يؤدي إلى تدريب غير مستقر. نقترح تقنية استخراج العلاقات التي تعتمد عليها VAE تقوم بتغيير هذا القيد باستخدام التصنيفات كمتغير متوسط ​​بدلا من متغير كامن. على وجه التحديد، تكون التصنيفات مشروطة بإدخال الجملة، في حين أن المتغير الكامن مشروط على كل من التصنيفات وإدخال الجملة. يتيح ذلك نموذجنا لتوصيل وحدة فك الترميز مع التشفير دون وضع قيود على توزيع التصنيف؛ الذي يحسن استقرار التدريب. يتم تقييم نهجنا على بيانات DataSet NYT وتفوق الطرق الحديثة.
استفاد من إعادة صياغة الصياغة على نطاق واسع من التقدم الأخير في تصميم الأهداف التدريبية والبنية النموذجية. ومع ذلك، تركز الاستكشافات السابقة إلى حد كبير على الأساليب الخاضعة للإشراف، والتي تتطلب كمية كبيرة من البيانات المسمى ذات مكلفة لجمعها. لمعالجة هذا العيب، نعتمد نهجا للتعلم ونقله واقتراح خط أنابيب التدريب الذي يتيح نماذج اللغة المدربة مسبقا لتوليد أول اتصالات عالية الجودة في إعداد غير محدد. تتكون وصفة لدينا من تكيف المهام والإشراف الذاتي وخوارزمية فك التشفير الجديدة المسماة حظر ديناميكي (DB). لفرض نموذج سطح متغاضي عن الإدخال، كلما أن نموذج اللغة ينبعث رمز رمزي موجود في تسلسل المصدر، يمنع DB النموذج من إخراج الرمز المميز اللاحق للمصدر خطوة الجيل التالي. نظرا للتقييمات التلقائية والإنسانية أن نهجنا يحقق أداء حديثة من كل من زوج السؤال Quora (QQP) ومجموعات بيانات Paranmt قوية لتحويل المجال بين مجموعة بيانات التوزيعات المميزة. نحن نوضح أيضا تحويلاتنا النموذجية إلى إعادة صياغة لغات أخرى دون أي رسوم إضافية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا