ترغب بنشر مسار تعليمي؟ اضغط هنا

نقل عبر اللغات لتصنيف النص مع الرسم البياني غير المتجانس القائم في القاموس

Cross-lingual Transfer for Text Classification with Dictionary-based Heterogeneous Graph

339   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في تصنيف النص عبر اللغات، يطلب من أن البيانات التدريبية الخاصة بمهام المهام في لغات مصدر عالية الموارد متوفرة، حيث تكون المهمة مطابقة لتلك لغة مستهدفة منخفضة الموارد. ومع ذلك، يمكن أن يكون جمع هذه البيانات التدريبية غير ممكنة بسبب تكلفة العلامات وخصائص المهام ومخاوف الخصوصية. تقترح هذه الورقة حل بديل يستخدم فقط تضييق كلمة مهمة من المهام لغات الموارد عالية الموارد وقواميس ثنائية اللغة. أولا، نبني رسم بياني غير متجانس (DHG) من القواميس ثنائية اللغة. هذا يفتح إمكانية استخدام الشبكات العصبية الرسم البيانية للتحويل عبر اللغات. التحدي المتبقي هو عدم تجانس DHG لأنه يتم النظر في لغات متعددة. لمعالجة هذا التحدي، نقترح شبكة عصبية غير متجانسة مقرها القاموس (Dhgnet) التي تعالج بفعالية عدم تجانس DHG بشكل فعال بمقدار تجميعتين، وهي مجامعات على مستوى الكلمة ومستوى اللغة. توضح النتائج التجريبية أن أسلوبنا تفوق النماذج المحددة على الرغم من أنها لا تصل إلى كورسا كبيرة. علاوة على ذلك، يمكن أن يؤدي ذلك بشكل جيد على الرغم من أن القواميس تحتوي على العديد من الترجمات غير الصحيحة. تتيح قوتها لاستخدام مجموعة واسعة من القواميس مثل القاموس المصنوع تلقائيا وقاموس التعيد الجماعي، وهو أمر مناسب لتطبيقات العالم الحقيقي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصنيف النص القصير هو مهمة أساسية في معالجة اللغة الطبيعية.من الصعب بسبب عدم وجود معلومات السياق والبيانات المسمى في الممارسة العملية.في هذه الورقة، نقترح طريقة جديدة تسمى SHINE، والتي تعتمد على الشبكة العصبية الرسم البيانية (GNN)، لتصنيف النص القصير. أولا، نقوم بنمذت مجموعة بيانات النص القصيرة كشركة بيانية غير متجانسة هرمية تتكون من رسومات مكونة على مستوى Word والتي تقدم معلومات أكثر دلالة ونقصية.بعد ذلك، نتعلم ديناميكيا رسم بياني مستند قصير يسهل نشر الملصقات الفعالة بين النصوص القصيرة المشابهات.وبالتالي، فإن المقارنة مع الأساليب القائمة على GNN القائمة، والتألق يمكن أن يستغل أفضل التفاعلات بين العقد من نفس الأنواع والقبض على أوجه التشابه بين النصوص القصيرة.تظهر تجارب واسعة النطاق على مختلف مجموعات البيانات القصيرة القصيرة المعجمية أن التألق يتفوق باستمرار على الأساليب الحديثة، خاصة مع عدد أقل من الملصقات.
يهدف سؤال متعدد اللغات، الرد على الرسم البياني للمعرفة (KGQA) إلى استخلاص إجابات من الرسم البياني المعرفي (KG) للأسئلة بلغات متعددة. لتكون قابلة للتطبيق على نطاق واسع، نركز على إعداد نقل الطلقة الصفرية. هذا هو، يمكننا فقط الوصول إلى البيانات التدريبي ة فقط بلغة موارد عالية، بينما تحتاج إلى الإجابة على أسئلة متعددة اللغات دون أي بيانات معدنية باللغات المستهدفة. يتم تشغيل نهج مباشر إلى نماذج متعددة اللغات المدربة مسبقا (على سبيل المثال، MBERT) للنقل عبر اللغات، ولكن هناك فجوة كبيرة من الأداء KGQA بين المصدر واللغات المستهدفة. في هذه الورقة، نستمسى تحريض معجم ثنائي اللغة دون مقابل (BLI) لخريطة الأسئلة التدريبية في لغة المصدر في تلك الموجودة في اللغة المستهدفة مثل بيانات التدريب المعزز، والتي تتحل إلى عدم تناسق اللغة بين التدريب والاستدلال. علاوة على ذلك، نقترح استراتيجية تعليمية عدائية لتخفيف اضطراب بناء الجملة في البيانات المعززة، مما يجعل النموذج يميل إلى كل من اللغة والبنيات الاستقلال. وبالتالي، فإن نموذجنا يضيق الفجوة في تحويل صفرية عبر اللغات. التجارب على مجموعة بيانات KGQA متعددة اللغات مع 11 لغة موارد صفرية تحقق من فعاليتها.
تم تطبيق الشبكات التنافسية الرسمية (GCNS) مؤخرا لتصنيف النص وإنتاج أداء ممتاز. ومع ذلك، فإن الأساليب القائمة على GCN القائمة لا تتحمل بنية دلالة كامنة واضحة للمستندات، مما يجعل التمثيلات المستفادة أقل فعالية ويصعب تفسيرها. كما أنها تتجاوز الطبيعة، وب التالي لا يمكن التعامل مع مستندات خارج الجرأ. لمعالجة هذه المشكلات، نقترح نموذج رواية باسم الرسم البياني التلقائي الإحسابي، الذي يشتمل على نموذج موضوع في التشفير التلقائي التلقائي (VGAE) لالتقاط المعلومات الدلالية المخفية بين المستندات والكلمات. ترث T-VGAE إمكانية تفسير نموذج الموضوع وآلية انتشار المعلومات الفعالة من VGAE. يتعلق الأمر بالتمثيلات الاحتمالية للكلمات والمستندات من خلال ترميز الرسم العالمي وإعادة بناء الرسوم البيانية العالمية على مستوى الكلمة والرسوم البيانية ذات الأطباء الحيوي، حيث يتم اعتبار كل مستند بشكل فردي وتثبيتها من الرسم البياني العلوي العالمي لتمكين التعلم الاستقرائي. تبين تجاربنا على عدة مجموعات من مجموعات البيانات القياسية أن أسلوبنا تتفوق على النماذج التنافسية الحالية على تصنيف النص الإشراف وشبه إشراف، وكذلك تعلم تمثيل النص غير المدقق. بالإضافة إلى ذلك، فإنه يحتوي على زيادة الترجمة الترجمة الشاملة وقادرة على التعامل مع المستندات غير المرئية.
أصبح التعلم المستمر أمرا مهما بشكل متزايد لأنه تمكن نماذج NLP للتعلم باستمرار واكتساب المعرفة بمرور الوقت. يتم تصميم أساليب التعلم المستمرة السابقة بشكل أساسي للحفاظ على المعرفة من المهام السابقة، دون التركيز كثيرا على كيفية تعميم النماذج بشكل جيد لم هام جديدة. في هذا العمل، نقترح طريقة التنظيم القائم على معلومات المعلومات للتعلم المستمر حول تصنيف النص. أسلوبنا المقترح أولا DESENTANGLES نص مساحات مخفية في تمثيلات عامة لجميع المهام والتمثيلات الخاصة بكل مهمة فردية، ومزيد من تنظيم هذه التمثيلات بشكل مختلف بشكل أفضل تقييد المعرفة المطلوبة للتعميم. نحن نقدم أيضا مهام مساعدة بسيطة: التنبؤ بالجمل التالي وتنبؤ المهام معرف المهام، لتعلم مساحات تمثيلية عامة ومحددة أفضل. توضح التجارب التي أجريت على معايير واسعة النطاق فعالية طريقتنا في مهام تصنيف النص المستمر مع تسلسلات مختلفة وأطوال فوق خطوط الأساس الحديثة. لقد أصدرنا علنا ​​رمزنا في https://github.com/gt-salt/idbr.
لقد أظهرت الأدوات الحديثة الأخيرة أن نماذج تعلم الرسم البياني المعرفي (KG) عرضة للغاية للهجمات الخصومة.ومع ذلك، لا تزال هناك ندرة من تحليلات الضعف لمحاذاة الكيان المتبادلة تحت هجمات الخصومة.تقترح هذه الورقة نموذج هجوم مخدر مع تقنيات هجومين جديدة لإشر اض هيكل كجم وتدلل جودة محاذاة الكيان المتبادلة العميقة.أولا، يتم استخدام طريقة تعظيم كثافة الكيان لإخفاء الكيانات المهاجمة في المناطق الكثيفة في كلكتين، بحيث تكون الاضطرابات المشتقة غير ملحوظة.ثانيا، تم تطوير طريقة تضخيم إشارة الهجوم لتقليل مشاكل التلاشي التجريبية في عملية الهجمات الخصومة لمزيد من تحسين فعالية الهجوم.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا