ترغب بنشر مسار تعليمي؟ اضغط هنا

طريقة تكيف المجال غير المزعجة مع محاذاة الهيكلية الدلالية لتحليل التبعية

Unsupervised Domain Adaptation Method with Semantic-Structural Alignment for Dependency Parsing

660   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحليل التبعية عبر المجال غير الخاضع للإكمال هو إنجاز تكيف مجال تحليل التبعية دون استخدام البيانات المسمى في المجال المستهدف. غالبا ما تكون الأساليب الحالية من نوع التوضيح الزائفة، والتي تنشئ البيانات من خلال التوضيح الذاتي للنموذج الأساسي وأداء التدريب التكراري. ومع ذلك، فشلت هذه الطرق في النظر في تغيير هيكل النموذج لتكييف المجال. بالإضافة إلى ذلك، لا يمكن استغلال المعلومات الهيكلية الواردة في النص بالكامل. لعلاج هذه العيوب، نقترح محلل التبعية التبعية للتكيف مع بنية دلالات (SSADP)، التي تنجز تحليلات التبعية عبر المجال غير الخاضعة للكشف دون الاعتماد على التوضيح الزائفة أو اختيار البيانات. على وجه الخصوص، نقوم بتصميم اثنين من النازعين ميزة لاستخراج الميزات الدلالية والهيكلية على التوالي. لكل نوع من الميزات، يتم استخدام طريقة تكيف الميزة المقابلة لتحقيق تكيف المجال لمواءمة توزيع المجال، والتي تعزز بشكل فعال إمكانية نقل المجال المتقاطع بشكل فعال للنموذج. نحن نقوم بالتحقق من فعالية طرازنا عن طريق إجراء تجارب على Codt1 و CTB9 على التوالي، وتظهر النتائج أن نموذجنا يمكن أن يحقق تحسين أداء ثابتا. علاوة على ذلك، نتحقق من قدرة نقل الهيكل النموذج المقترح عن طريق إدخال اختبار Weisfeiler-Lehman.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة المهمة المشتركة تتكيف المجال المجانية للمصدر التي عقدت داخل Semeval-2021.كان الهدف من المهمة هو استكشاف تكيف نماذج تعليم الآلات في مواجهة قيود مشاركة البيانات.على وجه التحديد، نعتبر السيناريو حيث توجد التعليقات التوضيحية للنطاق ولكن ل ا يمكن تقاسمها.بدلا من ذلك، يتم تزويد المشاركين مع النماذج المدربة على هذه البيانات (المصدر).يتلقى المشاركون أيضا بعض البيانات المسمى من مجال جديد (تطوير) لاستكشاف خوارزميات تكيف المجال.ثم يتم اختبار المشاركين على البيانات التي تمثل مجال جديد (الهدف).استكشفنا هذا السيناريو مع اثنين من المهام الدلالية المختلفة: الكشف عن النفي (مهمة تصنيف النص) والتعرف على تعبير الوقت (مهمة وضع علامة تسلسل).
تعتبر هذه الورقة مشكلة تكيف المجال غير المدعومة من أجل الترجمة الآلية العصبية (NMT)، حيث نفترض الوصول إلى نص أحادي فقط إما في المصدر أو اللغة المستهدفة في المجال الجديد. نقترح طريقة اختيار البيانات عبر اللغات لاستخراج الجمل داخل المجال في جانب اللغة المفقودة من كوربوس أحادية الأجل عام كبيرة. تقوم طريقةنا المقترحة بتدريب طبقة تكيفية على رأس بيرتف متعدد اللغات من خلال التعلم المتعرج عن تعايز التمثيل بين المصدر واللغة المستهدفة. ثم يتيح ذلك تحويل قابلية تحويل المجال بين اللغات بطريقة طلقة صفرية. بمجرد اكتشاف البيانات داخل المجال من قبل المصنف، يتم بعد ذلك تكييف نموذج NMT بالمجال الجديد من خلال مهام الترجمة التعلم المشتركة ومهام التمييز بين المجال. نقيم طريقة اختيار بياناتنا عبر اللغات لدينا على NMT عبر خمسة مجالات متنوعة في ثلاث أزواج لغوية، وكذلك سيناريو في العالم الحقيقي للترجمة Covid-19. تظهر النتائج أن أسلوبنا المقترح تتفوق على خطوط خطوط خطوط اختيار الاختيار الأخرى تصل إلى +1.5 درجة بلو.
تبلغ نماذج الكشف عن اللغة المسيئة للحكومة الأمريكية أداء كبير في Corpus، ولكن أداء الفضل عند تقييم التعليقات المسيئة التي تختلف عن سيناريو التدريب.نظرا لأن الشروح البشرية ينطوي على وقت وجهد كبير، فإن النماذج التي يمكن أن تتكيف مع التعليقات التي تم جم عها حديثا يمكن أن تكون مفيدة.في هذه الورقة، نحقق في فعالية العديد من نهج تكيف النطاقات غير المدمرة (UDA) لمهمة الكشف عن اللغة المسيئة.بالمقارنة، نقوم بتكييف متغير نموذج BERT، تدربت على تعليقات مسيئة واسعة النطاق، باستخدام طراز لغة ملثم (MLM)يوضح تقييمنا أن نهج UDA تؤدي إلى أداء فرعي الأمثل، في حين أن ضبط الريامة الجميلة لا يتحسن في إعداد العرض.يكشف التحليل المفصل عن حدود نهج UDA ويؤكد على الحاجة إلى بناء طرق تكيف فعالة لهذه المهمة.
في هذه الورقة، نقترح نموذجا بسيطا للتكيف عن نطاق القليل من الرصاص لفهم القراءة. نحدد أولا هيكل الشبكة الفرعية اليانصيب ضمن نموذج مجال المصدر المستندة إلى المحولات عبر تشذيب درجة تدريجية. ثم، نحن فقط نغتنم الشبكة الفرعية اليانصيب، جزء صغير من المعلمات بأكملها، على بيانات المجال المستهدحة المشروح للتكيف. للحصول على المزيد من البرامج الفرعية القابلة للتكيف، نقدم إسناد ذوي الاهتمام الذاتي لوزن المعلمات، بما يتجاوز ببساطة تقليم أصغر معلمات الحجم، والذي يمكن أن ينظر إليه على أنه يجمع بين تشذيب الهيكل المنظم وتشذيم درجة غذائية بهدوء. تظهر النتائج التجريبية أن أسلوبنا تتفوق على التكيف النموذج الكامل للتوحيد على أربعة مجالات من خمسة مجالات عندما يكون فقط كمية صغيرة من البيانات المشروحة المتاحة للتكيف. علاوة على ذلك، فإن إدخال إيلاء الإهمال الذاتي الاحتياطيات معلمات أكثر لرؤوس الانتباه مهم في الشبكة الفرعية اليانصيب ويحسن أداء نموذج المجال الهدف. تكشف التحليلات الإضافية الخاصة بنا أنه، إلى جانب استغلال عدد أقل من المعلمات، فإن اختيار الشبكة الفرعية أمر بالغ الأهمية للفعالية.
أظهر العمل الحديث أن نماذج لغة التدريب المسبق التدريبية يمكن أن تعزز الأداء عند التكيف إلى مجال جديد. ومع ذلك، فإن التكاليف المرتبطة بالتدريب المسبق رفع سؤال مهم: بالنظر إلى ميزانية ثابتة، ما هي الخطوات التي يجب أن يستغرق ممارس NLP لتعظيم الأداء؟ في هذه الورقة، نقوم بدراسة تكيف المجال بموجب قيود الموازنة، ونهجها كمشكلة اختيار العملاء بين شروح البيانات والتدريب المسبق. على وجه التحديد، نقيس تكلفة التوضيحية لثلاث مجموعات بيانات نصية إجرائية وتكلفة ما قبل التدريب من ثلاث نماذج لغوية داخل المجال. ثم نقيم فائدة مجموعات مختلفة من التدريب المسبق والتشريح بالبيانات بموجب قيود ميزانية متفاوتة لتقييم الاستراتيجية التي تعمل بشكل أفضل. نجد أنه بالنسبة للميزانيات الصغيرة، فإن إنفاق جميع الأموال على التوضيحية يؤدي إلى أفضل أداء؛ بمجرد أن تصبح الميزانية كبيرة بما فيه الكفاية، يعمل مزيج من شرح البيانات والتدريب المسبق في المجال على النحو الأمثل. لذلك نقترح أن تكون شروط التعريف الخاصة بالبيانات الخاصة بمهارات العمل يجب أن تكون جزءا من استراتيجية اقتصادية عند تكييف نموذج NLP إلى مجال جديد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا