وصفنا تقديم Edinsaar إلى المهمة المشتركة للترجمة ذات الموارد متعددة اللغات لغات شمال الجرمانية في المؤتمر السادس حول الترجمة الآلية (WMT2021).نقدم نماذج الترجمة متعددة اللغات للترجمات من / إلى الأيسلاندية (IS)، Norwegian-bokmal (NB)، والسويدية (SV).ن
حن نوظف العديد من الأساليب التجريبية، بما في ذلك التدريب المسبق متعدد اللغات، الترجمة الخلفي، والضبط الجميل، والكمية.في معظم اتجاهات الترجمة، تتفوق نماذجنا على أنظمة أخرى مقدمة.
المعايير القابلة للتكرار حاسمة في قيادة التقدم المحرز في أبحاث الترجمة الآلية. ومع ذلك، تقتصر معايير الترجمة الآلية الموجودة في الغالب على اللغات عالية الموارد أو ممثلة تمثيلا جيدا. على الرغم من الاهتمام المتزايد في الترجمة ذات الجهاز المنخفض، لا توج
د معايير موحدة استنساخ للعديد من اللغات الأفريقية، يتم استخدام العديد منها من قبل ملايين المتحدثين ولكن لديهم بيانات نصية أقل رقمية. لمعالجة هذه التحديات، نقترح AFROMT، معيارا قياسيا موحدا ونينا ونظيفا ولاكاثر لثمانية لغات أفريقية منطوقة على نطاق واسع. نقوم أيضا بتطوير مجموعة من أدوات التحليل لتشخيص النظام مع الأخذ في الاعتبار الخصائص الفريدة لهذه اللغات. علاوة على ذلك، نستكشف القضية التي تعتبرها مؤلمة تركز على الموارد المنخفضة المنخفضة وتطوير استراتيجيات جديدة قائمة على زيادة تكبير البيانات، واستفادة من معلومات محاذاة مستوى الكلمات والبيانات الزائفة غير المباشرة لإحاطاء نماذج التسلسل متعددة اللغات. نوضح تحسينات كبيرة عند الاحتجاج في 11 لغة، مع مكاسب تصل إلى 2 نقطة بلو على خطوط خطوط خطوط خطوط طويلة. نعرض أيضا مكاسب تصل إلى 12 نقطة بلو على خطوط خطوط نقل النقل عبر اللغات في سيناريوهات مقيدة البيانات. سيتم إصدار جميع النماذج من التعليمات البرمجية والأعمدة كخطوات أخرى نحو معايير قابلة لإزالة الأكبرات للغات الأفريقية.
تصف هذه الورقة تقديمنا للمهمة المشتركة على MT غير المنشورة ومدونة منخفضة للغاية في WMT 2021. لقد قدمنا أنظمة لأزواجين لغتان: الألمانية ↔ Sorbian العلوي (DE ↔ HSB) والصوربي الألماني السفلي (DSB).ل De ↔ HSB، نحن نتأرجح بنظامنا باستخدام كتلة (تسلسل ملثم
ين للتسلسل) الهدف ثم Finetune باستخدام الترجمة الترجمة الترجمة الترجمة التكرارية.يتم تنفيذ Finetunng النهائي باستخدام البيانات المتوازية المقدمة لأهداف الترجمة.ل de ↔ DSB، لا يتم توفير بيانات متوازية في المهمة، نستخدم نموذج DEFS HSB النهائي كهيئة نموذج DSB وتدريبه على الترجمة الترجمة الترجمة المتكررة، باستخدام نفس المفردات كما هو مستخدم في de ↔ HSBنموذج.
كيف تشرح بيل غيتس إلى الألمانية؟يرتبط بتأسيس شركة في الولايات المتحدة، لذلك ربما يمكن للمؤسس الألماني كارل بنز أن يقف في البوابات في تلك السياقات.يسمى هذا النوع من الترجمة التكيف في مجتمع الترجمة.حتى الآن، لم تتم هذه المهمة بشكل حسابي.يمكن استخدام ال
تكيف التلقائي في معالجة اللغة الطبيعية للترجمة الآلية وغير مباشرة لتوليد سؤالا جديدا يرد على مجموعات البيانات والتعليم.نقترح طريقتان تلقائيا ومقارنتها عن نتائج بشرية لهذه المهمة الرواية NLP الرواية.أولا، تتكيف قاعدة المعرفة المهيكلة الكيانات المسماة باستخدام خصائصها المشتركة.ثانيا، أساليب تعيينات التضمين الحسابية والمتعاملة التعاملية تحدد المرشحين أفضل، ولكن على حساب الميزات القابلة للتفسير.نقيم أساليبنا من خلال مجموعة بيانات جديدة من التكيف البشري.
تصف هذه الورقة مهمة Charles University الفرعية للمصطلحات المهمة المشتركة للترجمة في WMT21.الهدف من هذه المهمة هو تصميم نظام يترجم مع شروط معينة بناء على قاعدة بيانات المصطلحات المقدمة، مع الحفاظ على جودة الترجمة الشاملة عالية.تنافسنا في زوج اللغة الإ
نجليزية الفرنسية.يعتمد نهجنا على توفير الترجمات المرغوبة إلى جانب جملة الإدخال وتدريب النموذج لاستخدام هذه المصطلحات المقدمة.نحن Lemmatize المصطلحات على حد سواء أثناء التدريب والاستدلال، للسماح للنموذج لمعرفة كيفية إنتاج الأشكال السطحية الصحيحة للكلمات، عندما تختلف عن النماذج المتوفرة في قاعدة بيانات المصطلحات.
توضح هذه الورقة تقديم TENTRANS إلى مهمة مشتركة من Translation Translation منخفضة اللغات WMT21 لأزواج اللغة الرومانسية.تركز هذه المهمة على تحسين جودة الترجمة من الكاتالونية إلى Occitan والرومانية والإيطالية، بمساعدة لغات الموارد ذات الصلة ذات الصلة.نح
ن نستخدم أساسا الترجمة المرجانية، والطرق القائمة على المحور، ونماذج متعددة اللغات، ونقل النموذج المدربين مسبقا، ونقل المعرفة داخل المجال لتحسين جودة الترجمة.في مجموعة الاختبار، يحقق نظامنا الأفضل المقدم بمتوسط 43.45 درجات بلو حساسة لحالة الأحرف عبر جميع أزواج الموارد المنخفضة.تتوفر بياناتنا ورمز النماذج المدربة مسبقا مسبقا في هذا العمل في أمثلة تقييم Tentrans.
هناك نقص في شورا عالي الجودة للغات الجنوبية السلافية. مثل هذه الشركات مفيدة لعلماء الكمبيوتر والباحثين في العلوم الاجتماعية والعلوم الإنسانية على حد سواء، مع التركيز على العديد من تطبيقات اللغات والمحتوى وتطبيقات معالجة اللغة الطبيعية. تقدم هذه الورق
ة سيرجال سير عمل للتعدين محتوى ويكيبيديا ومعالجته في كوربورا معالجته اللغوي، المطبق على البوسنة والكبلانية والكرواتية والكرواتية والصلبيون والرويبو الكرواتية والسلوفانية والسلوفينية. نحن نجعل سبعة كوربورا متاحة للجمهور. نعرض هذه كوربورا من خلال مقارنة محتوى ويكيبيديا الأساسي، افتراضنا أن محتوى ويكيبيداس يعكس المصالح على نطاق واسع في موضوعات مختلفة في هذه الدول البلقان. نقوم بإجراء مقارنة المحتوى باستخدام خوارزميات نمذجة الموضوع ومقارنات التوزيع المختلفة. تظهر النتائج أن جميع ويكيبيداس متشابهة موضعيا تماما، مع كلها تغطي الفن والثقافة والأدب، في حين أنها تحتوي على اختلافات في الجغرافيا والسياسة والتاريخ والعلوم.
الهند هي واحدة من أغنى مراكز اللغات على الأرض وهي متنوعة للغاية وتعدد اللغات. ولكن بصرف النظر عن عدد قليل من اللغات الهندية، ما زال معظمهم يعتبرون فقراء الموارد. نظرا لأن معظم تقنيات NLP تتطلب معرفة لغوية لا يمكن تطويرها إلا من قبل الخبراء والمتحدثين
الأصليين في هذه اللغة أو أنها تتطلب الكثير من البيانات المسمى باهظة الثمن مرة أخرى لتوليد، فإن مهمة تصنيف النص تصبح تحديا لمعظم الهندي اللغات. الهدف الرئيسي من هذه الورقة هو معرفة كيف يمكن للمرء الاستفادة من التشابه المعجمي الموجود باللغات الهندية في سيناريو متعدد اللغات. هل يمكن إعادة استخدام نموذج تصنيف مدرب على لغة هندية واحدة لغات هندية أخرى؟ لذا، أجرينا تصنيف نصي بالرصاص عن طريق استغلال التشابه المعجمي وملاحظ أن طرازنا ينفذ بشكل أفضل في تلك الحالات حيث يتداخل المفردات بين مجموعات البيانات اللغوية كحد أقصى. تؤكد تجاربنا أيضا أن نموذجا واحدا متعدد اللغات مدرب عبر رابط استغلال اللغة يتفوق على الأساس من الهوامش الهامة.
نقدم نسخة ممتدة من الأداة التي وضعت لحساب المسافات اللغوية وغير المتكافئة في التصور السمعي للغات ذات الصلة عن كثب.جنبا إلى جنب مع تقييم المقاييس المتاحة في الإصدار الأولي من الأداة، نقدم Word Adaptation Enterpy كمقيدي إضافي من عدم التماثل اللغوي.يتم
التحقق من صحة المتنبئين المحتملين من الوضوح من الكلام مع الأداء البشري في تجارب التعرف على المعترف بها من غير المنطوقة في البلغارية والروسية.يتم إيلاء اهتمام خاص لمساهمات مختلفة من الحرث الحروفية والساوجة في التقويم الشفوي.باستخدام Incom.py 2.0 من الممكن حساب وتصور وصلاحية أساليب قياس ثلاث طرق للمسافات اللغوية والمسافات اللغوية وكذلك تنفيذ تحليلات الانحدار في الوضوء الكلام بين اللغات ذات الصلة.
شهدت الترجمة الآلية التقدم السريع مع ظهور النماذج القائمة على المحولات. لا تحتوي هذه النماذج على هيكل لغوي صريح مبني عليهم، ومع ذلك فقد لا يزالون لا يزالون يتعلمون ضمنيا علاقات منظمة من خلال حضور الرموز ذات الصلة. نحن نفترض أن هذا التعلم الهيكلي أكثر
قوة من خلال مرفق المحولات بشكل صريح مع التحيز الهيكلية، ونحن نحقق في طريقتين للبناء في مثل هذا التحيز. طريقة واحدة، TP-Transformer، تزيد من بنية المحولات التقليدية لتضمين مكون إضافي لتمثيل الهيكل. الطريقة الثانية تغلق الهيكل على مستوى البيانات عن طريق تجزئة البيانات مع التوت التمييز المورفولوجي. نختبر هذه الأساليب على الترجمة من الإنجليزية إلى لغات غنية مورفولوجية، التركية والأجنبية، والنظر في المقاييس التلقائية والتقييمات البشرية. نجد أن كل هذين من النهجين يسمح للشبكة لتحقيق أداء أفضل، ولكن هذا التحسين يعتمد على حجم مجموعة البيانات. باختصار طرق الترميز الهيكلية تجعل المحولات أكثر كفاءة عينة، مما يتيح لهم الأداء بشكل أفضل من كميات أصغر من البيانات.