ترغب بنشر مسار تعليمي؟ اضغط هنا

اكتشاف الاقتراض العصبي مع نماذج معجمية أحادية

Neural Borrowing Detection with Monolingual Lexical Models

349   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحديد القروض المعجمية، ونقل الكلمات بين اللغات، هي ممارسة أساسية لللغويات التاريخية وأداة حيوية في تحليل اتصال اللغة والأحداث الثقافية بشكل عام.نسعى لتحسين الأدوات للكشف التلقائي للقروض المعجمية، مع التركيز هنا على الكشف عن الكلمات المقترضة من نصوص الكلمات أحادية الأحادية.بدءا من نموذج اللغة المعجمية العصبية المتكررة ونهج انتروبيات المنافسة، فإننا ندمج نموذجا أكثر قائما على المحولات القائمة على المحولات.من هناك، نقوم بتجربة العديد من النماذج والنهج المختلفة بما في ذلك نموذج الجهات المانحة المعجمية مع قائمة الكلمات المعززة.يقلل نموذج المحول وقت التنفيذ ويحسن الحد الأدنى للكشف عن الاقتراض.نموذج المانحين المعزز يظهر بعض الوعد.هناك حاجة إلى تغيير موضوعي في النهج أو النموذج لإجراء مكاسب كبيرة في تحديد القروض المعجمية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم نتائج جديدة لمشكلة تسلسل وضع الاستعارة، باستخدام تضمين الرؤية المتطور مؤخرا.نظهر أننا يتسلسلون مثل هذه الأنشطة إلى مدخلات بيلستمية يحصلون على تحسينات متسقة ومهمة أي تكلفة تقريبا، ونقدم المزيد من النتائج المحسنة عند الجمع بين تضمين الرؤية مع بيرت.
ندرس مشكلة أداء تصنيف الموقف التلقائي على وسائل التواصل الاجتماعي مع البنية العصبية مثل بيرت. على الرغم من أن هذه المهنة تقدم نتائج مثيرة للإعجاب، إلا أن مستواها لم يقرص بعد مع أحد البشر وقد ينتجون أخطاء له تأثير كبير على المهمة المصب (على سبيل المثا ل، فحص الحقائق). لتحسين الأداء، نقدم الهندسة المعمارية العصبية الجديدة حيث تتضمن المدخلات أيضا وجهات نظر مفاجئة تلقائيا بسبب مطالبة معينة. يتم تعلم النموذج بشكل مشترك إجراء توقعات متعددة في وقت واحد، والتي يمكن استخدامها إما لتحسين تصنيف المنظور الأصلي أو لتصفية التنبؤات المشكوك فيها. في الحالة الأولى، نقترح طريقة خاضعة للإشراف ضعيفا للجمع بين التنبؤات في نهائي. في الحالة الثانية، نوضح أن استخدام درجات الثقة لإزالة التنبؤات المشكوك فيه يسمح لطريقنا لتحقيق أداء يشبه الإنسان على المعلومات المحتجزة، والتي لا تزال جزءا كبيرا من المدخلات الأصلية.
من المعروف أن نماذج الحوار العصبي تعاني من مشاكل مثل توليد ردود غير آمنة وغير متناسقة.على الرغم من أن هذه المشاكل حاسمة وسائدة، إلا أنها تعد في الغالب يدويا من قبل مصممي النماذج من خلال التفاعلات.في الآونة الأخيرة، يرشد بعض الأبحاث أن الجماعات الجمهو رية إلى البوتات الروبوتين في إثارة مثل هذه المشاكل.ومع ذلك، فإن البشر يستفيدون من القرائن السطحية مثل خطاب الكراهية، مع ترك المشاكل المنهجية السرية.في هذه الورقة، نقترح طريقتان بما في ذلك التعزيز التعلم لتشغيل نموذج حوار تلقائيا إلى استجابات إشكالية.نظهر تأثير طرقنا في فضح مشاكل السلامة والتناقض مع نماذج الحوار الحديثة.
تم تعزيز تطوير النهج الآلي للمقبولة اللغوية بشكل كبير من خلال توافر كولا كولا الإنجليزية، والذي تم إدراجه أيضا في معيار الغراء المستخدم على نطاق واسع. ومع ذلك، فقد أعاق هذا النوع من الأبحاث للغات بخلاف اللغة الإنجليزية، وكذلك تحليل الأساليب عبر اللغا ت، من خلال عدم وجود موارد بحجم مماثل بلغات أخرى. لذلك قمنا بتطوير Eatacola Corpus، الذي يحتوي على ما يقرب من 10000 جمل بأحكام مقبولية، والتي تم إنشاؤها بعد النهج نفسه ونفس الخطوات مثل اللغة الإنجليزية. في هذه الورقة، نصف إنشاء Corpus Credion، ونحن نقدم محتواها، ونقدم التجارب الأولى على هذا المورد الجديد. نقارن تصنيف النطاق والخروج من النطاق، وإجراء تقييم محدد لتسع ظواهر لغوية. نقدم أيضا أول تجارب متبردة عبر اللغات، والتي تهدف إلى تقييم ما إذا كان يمكن أن تستفيد النهج القائمة متعددة اللغات القائمة على المحولات من استخدام الجمل بلغتين أثناء ضبط الرصيف.
معظم العمل في NLP يجعل الافتراض أنه من المرغوب فيه تطوير حلول باللغة الأم المعنية. وبالتالي هناك اتجاه قوي نحو بناء نماذج لغات أصلية حتى لغات الموارد المنخفضة. تساهم هذه الورقة في هذا التطور، واستكشف فكرة ترجمة البيانات ببساطة إلى اللغة الإنجليزية، م ما يتيح استخدام نماذج اللغة الإنجليزية ذات الاحترام، واسعة النطاق. نوضح تجريبيا أن نموذج اللغة الإنجليزية الكبير إلى جانب الترجمة الآلية الحديثة يتفوقون على نماذج لغة أصلية في معظم اللغات الاسكندنافية. الاستثناء لهذه الفنلندية، والتي نفترض أنها بسبب جودة الترجمة الأدنى. تشير نتائجنا إلى أن الترجمة الآلية هي تقنية ناضجة، تثير حجة مضادة خطيرة لتدريب نماذج اللغة الأم لغات الموارد المنخفضة. لذلك تسعى هذه الورقة إلى اتخاذ نقطة استفزازية ولكنها مهمة. نظرا لأن نماذج اللغة الإنجليزية تتحسن بوتيرة غير مسبوقة، والتي تعمل بدورها على تحسين الترجمة الآلية، فهي من نقطة حاملة تجريبية وبيئية أكثر فعالية لترجمة البيانات من لغات الموارد المنخفضة إلى اللغة الإنجليزية، بدلا من بناء نماذج لغة لهذه اللغات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا