ترغب بنشر مسار تعليمي؟ اضغط هنا

تصفية البيانات باستخدام Arbeddings Word عبر اللغات

Data Filtering using Cross-Lingual Word Embeddings

381   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف تصفية البيانات للترجمة الآلية (MT) مهمة تحديد مجموعة فرعية من Corpus المعطى، ربما صاخبة مع الهدف لزيادة أداء نظام MT الذي تم تدريبه على هذه البيانات المحددة. على مر السنين، تم اقتراح العديد من نهج الترشيح المختلفة. ومع ذلك، فإن تعريفات المهام المختلفة وظروف البيانات تجعل من الصعب رسم مقارنة ذات مغزى. في العمل الحالي، نهدف إلى نهج أكثر منهجية للمهمة في متناول اليد. أولا، نقوم بتحليل أداء تحديد اللغة، وهي أداة تستخدم عادة لتصفية البيانات في مجتمع MT وتحديد نقاط الضعف المحددة. بناء على النتائج التي توصلنا إليها، نقترح بعد ذلك العديد من أساليب رواية لتصفية البيانات، استنادا إلى Argeddings Word عبر اللغات. قارنا مناهجنا إلى إحدى الطرق الفائزة من المهمة المشتركة ل WMT 2018 على تصفية Corpus الموازية على ثلاث مهام حقيقية عالية الموارد MT. نجد الطريقة المذكورة المذكورة، والتي كانت تؤدي قوية للغاية في المهمة المشتركة WMT، لا تؤدي بشكل جيد خلال ظروف مهمتنا الأكثر واقعية. بينما نجد أن نهجنا تخرج في الجزء العلوي من المهام الثلاثة، فإن المتغيرات المختلفة تؤدي أفضل مهام مختلفة. تشير تجارب أخرى على المهمة المشتركة لعاملة WMT 2020 للتصفية الشديدة الموازية أن أساليبنا تحقق نتائج مماثلة لأقوى التقديمات لهذه الحملة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نجحت شبكات الخصومة الإندنية (GANS) في تحفيز Adgeddings Word عبر اللغات - خرائط من الكلمات المتطابقة عبر اللغات - دون إشراف.على الرغم من هذه النجاحات، فإن أداء GANS الخاص بالحالة الصعبة للغات البعيدة لا يزال غير مرض.تم تفسير هذه القيود من قبل قوات الق يم "افتراض غير صحيح" أن المصدر والمساحات المستهدفة تضم ذات الصلة من خلال تعيين خطي واحد ويقبل Isomorphic تقريبا.ونحن نفترض بدلا من ذلك، خاصة عبر اللغات البعيدة، فإن التعيين هو مجرد خطي بقطعة حكيمة، ويقترح طريقة التعلم المتعددة الخصوم.هذه الطريقة الرواية تحفز القاموس البذور عبر اللغات من خلال تعيينات متعددة، كل منها مستحث لتناسب التعيين مقابل مساحة فرعية واحدة.تجاربنا على تحريض المعجم الثنائي الثنائي الثنائي البغي وتصنيف المستندات عبر اللغات تظهر أن هذه الطريقة تعمل على تحسين الأداء على أساليب رسم الخرائط الفردية السابقة، خاصة للغات البعيدة.
نقدم نظاما للصفر بالرصاص لغة هجومية عبر اللغات وتصنيف الكلام الكراهية.تم تدريب النظام على مجموعات البيانات الإنجليزية واختباره في مهمة اكتشاف محتوى خطاب الكراهية والوسائط الاجتماعية الهجومية في عدد من اللغات دون أي تدريب إضافي.تظهر التجارب قدرة رائعة لكلا النموذجين للتعميم من اللغة الإنجليزية إلى لغات أخرى.ومع ذلك، هناك فجوة متوقعة في الأداء بين النماذج التي تم اختبارها عبر اللغات والنماذج الأولية.يتوفر أفضل نموذج أداء (مصنف المحتوى الهجومي) عبر الإنترنت ك api بقية.
في هذه الورقة، نقدم نظاما لحل مهمة الغموض في السياق عبر اللغات واللغات متعددة اللغات. قدم منظمو المهام بيانات أحادية الأونلينغ بعدة لغات، ولكن لم تتوفر بيانات تدريبية عبر اللغات. لمعالجة عدم وجود بيانات تدريبية عبر اللغات المقدمة رسميا، قررنا توليد ه ذه البيانات بأنفسنا. نحن نصف نهج بسيط ولكنه فعال يعتمد على الترجمة الآلية والترجمة الخلفية للوحدات المعجمية إلى اللغة الأصلية المستخدمة في سياق هذه المهمة المشتركة. في تجاربنا، استخدمنا نظاما عصبا يعتمد على نموذج لغة XLM-R، وهو نموذج لغة ملثم مقره محول مسبقا، كناسما أساسيا. نظهر فعالية النهج المقترح لأنه يسمح بتحسين أداء هذا النموذج الأساسي القوي العصبي القوي. بالإضافة إلى ذلك، في هذه الدراسة، نقدم أنواعا متعددة من المصنف المستند إلى XLM-R، وتجربة طرق مختلفة لخلط المعلومات من الأحداث الأولى والثانية للكلمة المستهدفة في عينتين.
في هذا العمل، نصف جهودنا في تحسين مجموعة متنوعة من اللغات الناتجة عن نظام NLG القائم على القواعد للصحافة الآلية.نقدم اقترابين: واحد استنادا إلى إدراج كلمات جديدة تماما في جمل تم إنشاؤها من القوالب، وآخر بناء على استبدال الكلمات بالمرادفات.تشير نتائجن ا الأولية من التقييم البشري الذي أجري باللغة الإنجليزية إلى أن هذه الأساليب تحسن بنجاح من مجموعة متنوعة من اللغة دون تعديل معنى الجملة.ونحن نقدم أيضا اختلافات في الأساليب المطبقة على لغات الموارد المنخفضة، محاكاة هنا باستخدام الفنلندية، حيث يتم تسخير شركات التفاوية المحاذاة عبر اللغات للاستفادة من الموارد اللغوية بلغة عالية الموارد.يشير التقييم البشري إلى أنه بينما تظهر الأساليب المقترحة إمكانية في حالة الموارد المنخفضة، هناك حاجة إلى عمل إضافي لتحسين أدائها.
ثبت أن أداء أنظمة NMT يعتمد على جودة بيانات التدريب.في هذه الورقة، نستكشف أدوات مختلفة مفتوحة المصدر التي يمكن استخدامها لتسجيل جودة أزواج الترجمة، بهدف الحصول على كورسا نظيفة لتدريب نماذج NMT.نقيس أداء هذه الأدوات من خلال ربط درجاتهم بالدرجات البشري ة، وكذلك نماذج الرتبة المدربة على مجموعات البيانات التي تمت تصفيتها الناتجة من حيث أدائها في مجموعات اختبار مختلفة ومقاييس أداء MT.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا