ترغب بنشر مسار تعليمي؟ اضغط هنا

توضح هذه الورقة تقديم NetMarble إلى مهمة مشاركة WMT21 التلقائية بعد التحرير (القرد) لزوج اللغة الإنجليزية الألمانية. أولا، نقترح استراتيجية تدريب المناهج الدراسية في مراحل التدريب. تم اختيار نموذج الترجمة من WMT19 Face Facebook لإشراك الشبكات العصبية الكبيرة والقوية المدربة مسبقا. ثم، نقوم بتنفيذ نموذج الترجمة بمستويات مختلفة من البيانات في كل مراحل تدريبية. مع استمرار مراحل التدريب، نجعل النظام يتعلم حل مهام متعددة عن طريق إضافة معلومات إضافية في مراحل التدريب المختلفة تدريجيا. نعرض أيضا طريقة لاستخدام البيانات الإضافية في حجم كبير لمهام القرد. لمزيد من التحسين، نطبق استراتيجية التعلم متعددة المهام مع متوسط ​​الوزن الديناميكي خلال مرحلة ضبط الدقيقة. لضبط Corpus القرد مع بيانات محدودة، نضيف بعض المهام الفرعية ذات الصلة لتعلم تمثيل موحد. أخيرا، للحصول على أداء أفضل، نستفيد الترجمات الخارجية كترجمة آلية ازدهار (MT) أثناء التدريب على ما بعد التدريب والضبط. كما تظهر النتائج التجريبية، يعمل نظام القرد لدينا بشكل كبير على تحسين ترجمات نتائج MT المقدمة بنسبة -2.848 و +3.74 على مجموعة بيانات التطوير من حيث TER و Bleu، على التوالي. كما يوضح فعاليته في مجموعة بيانات الاختبار بجودة أعلى من مجموعة بيانات التطوير.
تصف هذه الورقة تقديم Kakao Enterprise إلى الترجمة الآلية المشتركة WMT21 باستخدام مهمة المصطلحات.نحن ندمج قيود المصطلحات من خلال التدريب المسبق مع التوضيحات المستهدفة التلقائية والضبط بشكل جيد مع التعليقات التوضيحية المستهدفة الدقيقة باستخدام مجموعة ب يانات المصطلحات المحددة.ينتجج هذا النهج نموذجا يحقق نتائج رائعة من حيث جودة الترجمة واتساق الأجل، المرتبة الأولى بناء على المذنب في اتجاه لغة EN → FR.علاوة على ذلك، نستكشف أساليب مختلفة مثل الترجمة الخلفية، ومصطلحات تدريب صريحة كبيانات متوازية إضافية، واختيار بيانات داخل المجال.
أنظمة ذاكرة الترجمة (TMS) هي المكون الرئيسي لأدوات الترجمة المساعدة بمساعدة الكمبيوتر. يقومون بتخزين الترجمات التي تسمح بتوفير الوقت عن طريق تقديم الترجمات على قاعدة البيانات من خلال مطابقة عدة أنواع مثل المباريات الغامضة، والتي تحسبها خوارزميات مثل مسافة التعديل. ومع ذلك، أظهرت الدراسات أوجه القصور اللغوي لهذه النظم والصعوبات في استرجاع البيانات أو الحصول على نسبة عالية من المطابقة، خاصة بعد تطبيق التحولات النحوية والدلوية هي التغيير الصوتي النشط / السلبي، تغيير ترتيب الكلمات، الاستبدال بواسطة مرادف أو ضمير شخصي، على سبيل المثال. تقدم هذه الورقة نتائج دراسة تجريبية حيث نحلل البيانات النوعية والكمية من الاستبيانات التي أجريت مع المترجمين المحترفين للإسبانية والفرنسية والعربية من أجل تحسين فعالية TMS واستكشاف جميع الاحتمالات لدمج مزيد من المعالجة اللغوية من عشرة أنواع التحول وبعد النتائج مشجعة، وسمحت لنا لمعرفة عملية الترجمة نفسها؛ التي نقترحنا أداة معالجة مسبقة التحرير لتحسين عمليات المطابقة واسترجح العمليات.
في الآونة الأخيرة، كان هناك مصلحة في البحث عن التحقق من الواقع والتنبؤ على البيانات المنظمة مثل الجداول والرسوم البيانية. للتحايل على أي حادث أخبار كاذبة، من الضروري عدم النموذج والتنبؤ فقط على البيانات المنظمة بكفاءة ولكن أيضا لشرح تلك التنبؤات. في هذه الورقة، كجزء من مهمة SEMEVAL-2021 9، نتعامل مع مشكلة التحقق من الحقائق وأدلة العثور على بيانات جدولية. هناك نوعان فرعي، حيث نظأ طاولة وبيان / حقيقة، يتمثل الترجمة الفرعية في تحديد ما إذا كان البيان استنتجا من البيانات الجدولية، ويقوم SubTask B بتحديد الخلايا الموجودة في الجدول تقديم أدلة على التراكب الفرعي السابق. نحن نقدم مقارنة بين خطوط الأساس وحالة النهج الفنية على مجموعة بيانات Semtabfact المعينة. نقترح أيضا نهج رواية Cellbert لحل مهمة العثور على الأدلة، كشكل من أشكال مهمة الاستدلال باللغة الطبيعية. نحصل على درجة F1 ذات الاتجاهين من 0.69 على التراكب الفرعي ونتيجة F1 من 0.65 على التراكب الفرعي B.
تحسنت جودة الترجمات التي تم إنشاؤها بواسطة أنظمة الترجمة الآلية (MT) بشكل كبير خلال السنوات، لكننا لا نزال بعيدا للحصول على ترجمات عالية الجودة التلقائية بالكامل.لتوليدهم والمترجمين يستفيدون من أدوات الترجمة المساعدة بمساعدة الكمبيوتر وبينها نجد أنظم ة الترجمة الآلية التفاعلية (IPMT).في هذه الورقة، نستخدم ملاحظات الحساب على أنها المعلومات الرئيسية والوحيدة اللازمة لإنشاء تنبؤات جديدة تصحح الترجمات السابقة.يقلل تطبيق ملاحظات الحساب بشكل كبير من عدد الكلمات التي يحتاجها المترجم إلى كتابة جلسة IPMT.في الختام واستخدام هذه التقنية يوفر وقتا مفيدا وجهده للمترجمين وتحسين أدائها مع التقدم المستقبلي في MT وهكذا نوصي بتطبيقها في أنظمة IPMT الفعلية.
توضح هذه الورقة أنظمة ترجمة الكلام غير المتصلة بالإنترنت والمزخرفة التي تم تطويرها في Apptek for IWSLT 2021. يتضمن خضائه غير المتصل للنظام المباشر للنظام المباشر والنموذج المتكامل الخفي المزعوم، وهو أقرب إلى نظام Cascade ولكن تم تدريبهفي أزياء نهاية إلى نهاية، حيث تكون جميع الوحدات المتطرفة النماذج نهاية إلى نهاية نفسها.بالنسبة إلى القديس المتزامن، نجمع بين التعرف على الكلام التلقائي الهجينة بنهج ترجمة آلية يتم تعلم قرارات سياسة الترجمة من محاذاة الكلمة الإحصائية.مقارنة بالعام الماضي، نحسن الجودة العامة وتوفير مجموعة واسعة من مفاضات الجودة / الكمون، سواء بسبب طريقة تكبير البيانات مما يجعل نموذج MT قويا بأحجام قطع قطع متنوعة.أخيرا، نقدم طريقة تجزئة إخراج ASR إلى جمل تقدم أقل تأخير إضافي.
نحن تصف تقديمنا إلى المهمة المشتركة IWSLT 2021 على الترجمة الإنجليزية-الألمانية المتزامنة.يعتمد نظامنا على نهج إعادة الترجمة حيث يقوم الوكيل بإعادة ترجمة بادئة المصدر بأكملها في كل مرة يتلقى رمزية مصدر جديد.ومع ذلك، فإن هذا النهج لديه ميزة القدرة على استخدام محرك الاستدلال الآلات العصبية القياسية (NMT) مع بحث شعاع، ومع ذلك، هناك خطر من أن عدم التوافق بين عمليات إعادة الترجمات المتعاقبة ستحلل الإخراج.لتحسين جودة الترجمات، نقوم بتجربة مناهج مختلفة: نستخدم حجم ثابت في بداية الجملة، ونحن نستخدم درجة نموذج اللغة للكشف عن وحدات مترجمة، ونحن نطبق اخفاء ديناميكي لتحديد متى تكون الترجمة غير مستقروبعدنجد أن مزيج من النقاط النموذجي للمخف واللغة الديناميكي يحصل على أفضل إيقاف تشغيل جودة الكمون.
في هذه الورقة وصفنا تقديمنا إلى الترجمة متعددة اللغات متعددة اللغات Wtask MulticeIndicMt '' تحت اسم الفريق Nict-5 ''.هذه المهمة تنطوي على الترجمة من 10 لغات ind إلى الإنجليزية والعكس العكس.كان الهدف من المهمة هو استكشاف فائدة النهج متعددة اللغات باست خدام مجموعة متنوعة من المجال والموازيات غير المباشرة وغير المباشرة.بالنظر إلى النجاح الأخير للتعددية العامة للتدريب المسبق ل NMT، قررنا استكشاف ما قبل التدريب نموذج MBART على مجموعة كبيرة من أحادي الأطراف أحادية تغطي جميع اللغات في هذه المهمة متبوعة بضبط متعدد اللغات على الفور في المجال.أولا، لاحظنا أن كمية صغيرة من التدريب المسبق مسبقا تليها ضبط الدقيقة على شركت ثنائية اللغة يمكن أن تسفر عن مكاسب كبيرة عندما لا يتم استخدام التدريب المسبق.علاوة على ذلك، يؤدي الضبط الجمني متعدد اللغات إلى مزيد من المكاسب في جودة الترجمة التي تتفوق بشكل كبير على خط أساسي قوي متعدد اللغات لا يعتمد على أي تدريب مسبق.
يمكن للإيذاء عبر الإنترنت إلحاق الأذى بالمستخدمين والمجتمعات، مما يجعل المساحات عبر الإنترنت غير آمنة وسامة.غالبا ما يتم احتساب التقدم المحرز في الكشف عن المحتوى المسيء والتصنيف تلقائيا بسبب عدم وجود مجموعات بيانات عالية الجودة ومفصلة. نقدم مجموعة بي انات جديدة من إدخالات Reddit الإنجليزية في المقام الأول والتي تعالج عدة قيود على العمل السابق.يحتوي ذلك (1) على ست فئات أساسية مميزة من الناحية الناحية الفنية وكذلك الفئات الثانوية، (2) يحتوي على تسميات مشروحة في سياق مؤشر ترابط المحادثة، (3) تحتوي (3) على المناولة و (4) تستخدم عملية تحكم مجموعة مدفوعة من الخبراء عاليةالتوضيحية الجودة.نبلغ عن العديد من النماذج الأساسية لقياس عمل الباحثين في المستقبل.البيانات الموحدة والمبادئ التوجيهية التوضيحية والنماذج والرمز متاحة بحرية.
إن إدخال طلاب المعلوماتيين الطبية الحيوية (BMI) للمعالجة اللغوية الطبيعية (NLP) يتطلب موازنة العمق الفني مع المعرفة العملية لمعالجة الاحتياجات التي تركز على التطبيق.قمنا بتطوير مجموعة من ثلاثة أنشطة إدخال طلاب BMI تمهيدي لاسترجاع المعلومات مع NLP، وا لغطاء استراتيجيات تمثيل المستندات ونماذج اللغة من TF-IDF إلى Bert.تزود هذه الأنشطة الطلاب بتجربة عملية مستهدفة نحو حالات الاستخدام المشترك، وإدخال مكونات أساسية من سير العمل NLP لمجموعة واسعة من التطبيقات.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا