ترغب بنشر مسار تعليمي؟ اضغط هنا

استخراج مصطلحات ثنائية اللغة باستخدام Adgeddings الكلمة العصبية على Corpora المقارنة

Bilingual Terminology Extraction Using Neural Word Embeddings on Comparable Corpora

258   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتمثل إدارة المصطلح والمصطلان بخطوات حيوية لإعداد كل أخصائي لغة، ولعب دورا مهما للغاية في مرحلة تعليم محترفي الترجمة.يتزايد الاتجاه المتزايد من إدارة الوقت الفعالة والقيود الزمنية المستمرة التي قد نلاحظها في كل قطاع عمل بزيادة ضرورة تجميع المسرد التلقائي.تعتمد العديد من أنظمة AET ثنائية اللغة أداء جيدا على معالجة البيانات الموازية، ومع ذلك، فإن هذه الشركات الموازية ليست متاحة دائما لمجال معين أو زوج لغة.يعد الوصول إلى المجال الخاص، والوصول ثنائي اللغة إلى المعلومات واسترجاعه بناء على شركة Corpora المقارنة مجالا واعدةا كبيرا من البحث يتطلب تحليلا مفصلا لكلا من مصادر البيانات المتوفرة وتقنيات الاستخراج المحتملة.يركز هذا العمل على استخراج المصطلحات التلقائية الخاصة بالمجال من شركة Corga المقارنة للزوج باللغة الإنجليزية - اللغة الروسية من خلال الاستفادة من تضمين الكلمات العصبية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح نهجا جديدا لتعلم تضمين الكلمات المتبادلة عبر السياق بناء على كائن مواز صغير (E.G. بضع مئات من أزواج الجملة). تتمتع طريقتنا بدمج الكلمات عبر نموذج فك تشفير LSTM يترجم في وقت واحد وإعادة بناء جملة مدخلات. من خلال تقاسم المعلمات النموذجية بين لغات مختلفة، يدرك نموذجنا بشكل مشترك كلمة تضمين الكلمة في مساحة شائعة تبادل اللغات. نقترح أيضا الجمع بين وظائف الكلمة والكلمات الفرعية للاستفادة من أوجه التشابه الهجري عبر لغات مختلفة. نحن نؤدي تجاربنا على بيانات العالم الحقيقي من اللغات المهددة بالانقراض، وهي يونغينغ نا، Shipibo-Konibo، و Griko. تجاربنا على تحيزي المعجم الثنائي اللغة ومهام محاذاة الكلمات تظهر أن نموذجنا يفوق على الأساليب الحالية من قبل هامش كبير لمعظم أزواج اللغات. توضح هذه النتائج أنه على خلاف المعتقد الشائع، فإن نموذج الترجمة المشترك - ترميز الترميز مفيد لتعلم التمثيلات المتبادلة حتى في ظروف الموارد المنخفضة للغاية. علاوة على ذلك، يعمل نموذجنا أيضا بشكل جيد في ظروف الموارد العالية، وتحقيق الأداء الحديث في مهمة محاذاة الكلمة باللغة الألمانية.
تقدم هذه الورقة طريقة لتحديد أنماط قواعد اللغة الثنائية الثابتة وتستقل مثيلات العبارات ثنائية اللغة من زوج الجملة الإنجليزي - الصينية.في نهجنا، يتم تحليل زوج الجملة الإنجليزية الصينية لتحديد أنماط القواعد الإنجليزية والنظرات الصينية.تنطوي الطريقة على توليد ترجمات كل نمط قواعد اللغة الإنجليزية وحساب احتمال ترجمة الكلمات من كورسا الموازية الكلمة المحاذاة.تسمح لنا النتائج باستخراج أزواج العبارات الإنجليزية الأكثر احتمالا في زوج الجملة.نقدم نظام نموذجي ينطبق الطريقة لاستخراج أنماط القواعد والعبارات في الجمل الموازية.يوضح التقييم بشأن الأمثلة المختارة بشكل عشوائي من القاموس أن نهجنا لديه أداء جيد بشكل معقول.نحن نستخدم قاضي الإنسان لتقييم العبارات الثامنة الناتجة عن طريقنا.النتائج لديها إمكانية مساعدة تعلم اللغة وأبحاث الترجمة الآلية.
تمثل شركة كورسا الكبيرة من الويب موردا ممتازا لتحسين أداء أنظمة الترجمة الآلية العصبية (NMT) عبر العديد من أزواج اللغة. ومع ذلك، نظرا لأن هذه كورسيا صاخبة للغاية، فإن استخدامها محدود إلى حد ما. تركز النهج الحالية للتعامل مع هذه المشكلة أساسا على التر شيح باستخدام الاستدلال أو ميزات واحدة مثل درجات نموذج اللغة أو التشابه الثنائي اللغوي. يقدم هذا العمل نهجا بديلا يتعلم الأوزان لميزات متعددة على مستوى الجملة. يتم استخدام هذه الأوزان الميزة التي تم تحسينها مباشرة لمهمة تحسين أداء الترجمة، وتسجيل الجمل والتصفية في كورسا صاخبة بشكل أكثر فعالية. نحن نقدم نتائج تطبيق هذه التقنية لبناء أنظمة NMT باستخدام Corpus Paracrawl For Estonian-English وإظهار أنه يدق خطوط خطوط ميزة واحدة قوية ومجموعات مصممة باليد. بالإضافة إلى ذلك، نقوم بتحليل حساسية هذه الطريقة لأنواع مختلفة من الضوضاء واستكشاف إذا تعميم الأوزان المستفادة إلى أزواج لغة أخرى باستخدام Corpus Maltese-English Paracrawl Corpus.
في هذه الورقة، نقدم مجموعة بيانات توصية ثنائية اللغة بالتوازي ثنائية اللغة (Dreecdial 2.0) لتمكين الباحثين من استكشاف مهمة صعبة في توصية محادثة متعددة اللغات ومتعددة اللغات. الفرق بين Dreecdial 2.0 ومجموعات بيانات توصية المحادثة الحالية هو أن عنصر ال بيانات (الملف الشخصي والهدف والمعرفة والسياق، والاستجابة) في Dreecdial 2.0 يتم تفاحيا بلغتين، الإنجليزية والصينية، في حين أن مجموعات البيانات الأخرى بنيت مع إعداد لغة واحدة. نقوم بجمع مربعات الحوار 8.2k محاذاة على اللغات الإنجليزية والصينية (16.5 ألف مربع حوار وأحدث 255 ألفا في المجموع) المشروح من قبل عمال التعيد الجماعي مع إجراء مراقبة الجودة الصارم. ثم نقوم ببناء خطوط خطوط خطوط محادثة محادثة مونولجة متعددة اللغات متعددة اللغات على Dreecdial 2.0. تشير نتائج التجربة إلى أن استخدام بيانات اللغة الإنجليزية الإضافية يمكن أن يحقق تحسين الأداء لتوصية التحدث الصينية، مما يشير إلى فوائد Dreecdial 2.0. أخيرا، توفر هذه البيانات هذه البيانات اختبارا صعبة للدراسات المستقبلية لتوصية محادثة مونولينغ متعددة اللغات والتعددية اللغوية.
يصف هذا البحث نظاما للتعرف على الكلمة العربية المكتوبة بخط اليد دون تقطيع سابق للكلمة إلى محارف, و سيتم التعرف من خلاله على مستويين, و قد طور هذا النظام اعتمادا على نظام التعرف الضوئي على الحروف, و خوارزمية ماركوف المخفية, و عدد من التوابع (المورفولو جية), و خوارزميات استرجاع الصور اعتمادا على المحتوى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا