ترغب بنشر مسار تعليمي؟ اضغط هنا

المعايير القابلة للتكرار حاسمة في قيادة التقدم المحرز في أبحاث الترجمة الآلية. ومع ذلك، تقتصر معايير الترجمة الآلية الموجودة في الغالب على اللغات عالية الموارد أو ممثلة تمثيلا جيدا. على الرغم من الاهتمام المتزايد في الترجمة ذات الجهاز المنخفض، لا توج د معايير موحدة استنساخ للعديد من اللغات الأفريقية، يتم استخدام العديد منها من قبل ملايين المتحدثين ولكن لديهم بيانات نصية أقل رقمية. لمعالجة هذه التحديات، نقترح AFROMT، معيارا قياسيا موحدا ونينا ونظيفا ولاكاثر لثمانية لغات أفريقية منطوقة على نطاق واسع. نقوم أيضا بتطوير مجموعة من أدوات التحليل لتشخيص النظام مع الأخذ في الاعتبار الخصائص الفريدة لهذه اللغات. علاوة على ذلك، نستكشف القضية التي تعتبرها مؤلمة تركز على الموارد المنخفضة المنخفضة وتطوير استراتيجيات جديدة قائمة على زيادة تكبير البيانات، واستفادة من معلومات محاذاة مستوى الكلمات والبيانات الزائفة غير المباشرة لإحاطاء نماذج التسلسل متعددة اللغات. نوضح تحسينات كبيرة عند الاحتجاج في 11 لغة، مع مكاسب تصل إلى 2 نقطة بلو على خطوط خطوط خطوط خطوط طويلة. نعرض أيضا مكاسب تصل إلى 12 نقطة بلو على خطوط خطوط نقل النقل عبر اللغات في سيناريوهات مقيدة البيانات. سيتم إصدار جميع النماذج من التعليمات البرمجية والأعمدة كخطوات أخرى نحو معايير قابلة لإزالة الأكبرات للغات الأفريقية.
توضح هذه الورقة تقديم TENTRANS إلى مهمة مشتركة من Translation Translation منخفضة اللغات WMT21 لأزواج اللغة الرومانسية.تركز هذه المهمة على تحسين جودة الترجمة من الكاتالونية إلى Occitan والرومانية والإيطالية، بمساعدة لغات الموارد ذات الصلة ذات الصلة.نح ن نستخدم أساسا الترجمة المرجانية، والطرق القائمة على المحور، ونماذج متعددة اللغات، ونقل النموذج المدربين مسبقا، ونقل المعرفة داخل المجال لتحسين جودة الترجمة.في مجموعة الاختبار، يحقق نظامنا الأفضل المقدم بمتوسط 43.45 درجات بلو حساسة لحالة الأحرف عبر جميع أزواج الموارد المنخفضة.تتوفر بياناتنا ورمز النماذج المدربة مسبقا مسبقا في هذا العمل في أمثلة تقييم Tentrans.
كيف تشرح بيل غيتس إلى الألمانية؟يرتبط بتأسيس شركة في الولايات المتحدة، لذلك ربما يمكن للمؤسس الألماني كارل بنز أن يقف في البوابات في تلك السياقات.يسمى هذا النوع من الترجمة التكيف في مجتمع الترجمة.حتى الآن، لم تتم هذه المهمة بشكل حسابي.يمكن استخدام ال تكيف التلقائي في معالجة اللغة الطبيعية للترجمة الآلية وغير مباشرة لتوليد سؤالا جديدا يرد على مجموعات البيانات والتعليم.نقترح طريقتان تلقائيا ومقارنتها عن نتائج بشرية لهذه المهمة الرواية NLP الرواية.أولا، تتكيف قاعدة المعرفة المهيكلة الكيانات المسماة باستخدام خصائصها المشتركة.ثانيا، أساليب تعيينات التضمين الحسابية والمتعاملة التعاملية تحدد المرشحين أفضل، ولكن على حساب الميزات القابلة للتفسير.نقيم أساليبنا من خلال مجموعة بيانات جديدة من التكيف البشري.
تصف هذه الورقة تقديمنا للمهمة المشتركة على MT غير المنشورة ومدونة منخفضة للغاية في WMT 2021. لقد قدمنا أنظمة لأزواجين لغتان: الألمانية ↔ Sorbian العلوي (DE ↔ HSB) والصوربي الألماني السفلي (DSB).ل De ↔ HSB، نحن نتأرجح بنظامنا باستخدام كتلة (تسلسل ملثم ين للتسلسل) الهدف ثم Finetune باستخدام الترجمة الترجمة الترجمة الترجمة التكرارية.يتم تنفيذ Finetunng النهائي باستخدام البيانات المتوازية المقدمة لأهداف الترجمة.ل de ↔ DSB، لا يتم توفير بيانات متوازية في المهمة، نستخدم نموذج DEFS HSB النهائي كهيئة نموذج DSB وتدريبه على الترجمة الترجمة الترجمة المتكررة، باستخدام نفس المفردات كما هو مستخدم في de ↔ HSBنموذج.
وصفنا تقديم Edinsaar إلى المهمة المشتركة للترجمة ذات الموارد متعددة اللغات لغات شمال الجرمانية في المؤتمر السادس حول الترجمة الآلية (WMT2021).نقدم نماذج الترجمة متعددة اللغات للترجمات من / إلى الأيسلاندية (IS)، Norwegian-bokmal (NB)، والسويدية (SV).ن حن نوظف العديد من الأساليب التجريبية، بما في ذلك التدريب المسبق متعدد اللغات، الترجمة الخلفي، والضبط الجميل، والكمية.في معظم اتجاهات الترجمة، تتفوق نماذجنا على أنظمة أخرى مقدمة.
تصف هذه الورقة مهمة Charles University الفرعية للمصطلحات المهمة المشتركة للترجمة في WMT21.الهدف من هذه المهمة هو تصميم نظام يترجم مع شروط معينة بناء على قاعدة بيانات المصطلحات المقدمة، مع الحفاظ على جودة الترجمة الشاملة عالية.تنافسنا في زوج اللغة الإ نجليزية الفرنسية.يعتمد نهجنا على توفير الترجمات المرغوبة إلى جانب جملة الإدخال وتدريب النموذج لاستخدام هذه المصطلحات المقدمة.نحن Lemmatize المصطلحات على حد سواء أثناء التدريب والاستدلال، للسماح للنموذج لمعرفة كيفية إنتاج الأشكال السطحية الصحيحة للكلمات، عندما تختلف عن النماذج المتوفرة في قاعدة بيانات المصطلحات.
الهند هي واحدة من أغنى مراكز اللغات على الأرض وهي متنوعة للغاية وتعدد اللغات. ولكن بصرف النظر عن عدد قليل من اللغات الهندية، ما زال معظمهم يعتبرون فقراء الموارد. نظرا لأن معظم تقنيات NLP تتطلب معرفة لغوية لا يمكن تطويرها إلا من قبل الخبراء والمتحدثين الأصليين في هذه اللغة أو أنها تتطلب الكثير من البيانات المسمى باهظة الثمن مرة أخرى لتوليد، فإن مهمة تصنيف النص تصبح تحديا لمعظم الهندي اللغات. الهدف الرئيسي من هذه الورقة هو معرفة كيف يمكن للمرء الاستفادة من التشابه المعجمي الموجود باللغات الهندية في سيناريو متعدد اللغات. هل يمكن إعادة استخدام نموذج تصنيف مدرب على لغة هندية واحدة لغات هندية أخرى؟ لذا، أجرينا تصنيف نصي بالرصاص عن طريق استغلال التشابه المعجمي وملاحظ أن طرازنا ينفذ بشكل أفضل في تلك الحالات حيث يتداخل المفردات بين مجموعات البيانات اللغوية كحد أقصى. تؤكد تجاربنا أيضا أن نموذجا واحدا متعدد اللغات مدرب عبر رابط استغلال اللغة يتفوق على الأساس من الهوامش الهامة.
هناك نقص في شورا عالي الجودة للغات الجنوبية السلافية. مثل هذه الشركات مفيدة لعلماء الكمبيوتر والباحثين في العلوم الاجتماعية والعلوم الإنسانية على حد سواء، مع التركيز على العديد من تطبيقات اللغات والمحتوى وتطبيقات معالجة اللغة الطبيعية. تقدم هذه الورق ة سيرجال سير عمل للتعدين محتوى ويكيبيديا ومعالجته في كوربورا معالجته اللغوي، المطبق على البوسنة والكبلانية والكرواتية والكرواتية والصلبيون والرويبو الكرواتية والسلوفانية والسلوفينية. نحن نجعل سبعة كوربورا متاحة للجمهور. نعرض هذه كوربورا من خلال مقارنة محتوى ويكيبيديا الأساسي، افتراضنا أن محتوى ويكيبيداس يعكس المصالح على نطاق واسع في موضوعات مختلفة في هذه الدول البلقان. نقوم بإجراء مقارنة المحتوى باستخدام خوارزميات نمذجة الموضوع ومقارنات التوزيع المختلفة. تظهر النتائج أن جميع ويكيبيداس متشابهة موضعيا تماما، مع كلها تغطي الفن والثقافة والأدب، في حين أنها تحتوي على اختلافات في الجغرافيا والسياسة والتاريخ والعلوم.
نقدم نسخة ممتدة من الأداة التي وضعت لحساب المسافات اللغوية وغير المتكافئة في التصور السمعي للغات ذات الصلة عن كثب.جنبا إلى جنب مع تقييم المقاييس المتاحة في الإصدار الأولي من الأداة، نقدم Word Adaptation Enterpy كمقيدي إضافي من عدم التماثل اللغوي.يتم التحقق من صحة المتنبئين المحتملين من الوضوح من الكلام مع الأداء البشري في تجارب التعرف على المعترف بها من غير المنطوقة في البلغارية والروسية.يتم إيلاء اهتمام خاص لمساهمات مختلفة من الحرث الحروفية والساوجة في التقويم الشفوي.باستخدام Incom.py 2.0 من الممكن حساب وتصور وصلاحية أساليب قياس ثلاث طرق للمسافات اللغوية والمسافات اللغوية وكذلك تنفيذ تحليلات الانحدار في الوضوء الكلام بين اللغات ذات الصلة.
الاختلاف الدلالي بلغات ذات صلة هو مصدر قلق رئيسي لللغويات التاريخية.نحن نحقق في التحقيق اللغوي في الاختلاف الدلالي من أزواج المعروفة باللغات الإنجليزية والرومانسية، عن طريق تدمير Word.تحقيقا لهذه الغاية، نقدم مجموعة بيانات جديدة من الإدراك في جميع أز واج تلك اللغات.نحن نصف أنواع الأخطاء التي حدثت خلال عملية تحديد المعرفة الآلية وتصحيحها يدويا.بالإضافة إلى ذلك، نسمي أن نملصق اللغة الإنجليزية وفقا لالئصال الخاصة بهم، وفصلها إلى مجموعتين: القروض القديمة والقروض الأخيرة.في هذه البيانات المنوية، نقوم بتحليل خصائص Word مثل التردد والبولزيمي، وتوزيع درجات التشابه بين مجموعات مختلفة بلغات مختلفة.نحدد تلقائيا مجموعات مختلفة من الإنجليز، وضع اتجاه جديد للبحث في cognates، والقروض وتحليل الأصدقاء الخاطئين في لغات ذات صلة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا