ترغب بنشر مسار تعليمي؟ اضغط هنا

استرجاع ذاكرة الترجمة باستخدام لوسين

Translation Memory Retrieval Using Lucene

166   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يستخدم نظام ذاكرة الترجمة (TM)، وهو مكون رئيسي للترجمة بمساعدة الكمبيوتر (CAT)، على نطاق واسع لتحسين إنتاجية المترجمين البشريين من خلال تقديم استخدام فعال للمورد المترجم سابقا.نقترح طريقة لتحقيق استرجاع عالي السرعة من ذاكرة الترجمة الكبيرة عن طريق تقييم التشابه بناء على نموذج ناقل، وتقديم النتيجة التجريبية.من خلال تجربتنا باستخدام Lucene، محرك بحث استرجاع لاسترجاع المعلومات مفتوح المصدر، نستنتج أنه من الممكن تحقيق سرعة استرجاع في الوقت الفعلي لن حول عشرات من ميكروثونات حتى بالنسبة لذاكرة الترجمة الكبيرة مع 5 ملايين زوج قطاعي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الهدف من هذه الورقة هو التحقيق في نهج قياس التشابه في ذاكرة الترجمة (TM) في خمس أدوات ترجمة بمساعدة كمبيوتر تمثيلي عند استرداد جمل التباين في الفعل في الترجمة باللغة العربية إلى الإنجليزية. في اللغة الإنجليزية، تشمل الملصقات في الأفعال في الأفعال فقط ؛ على عكس اللغة الإنجليزية، الأفعال باللغة العربية مشتق من الصوت، والمزاج، والتوتر، والعدد والشخص من خلال الملصقات الانتشارية المختلفة E.G. قبل أو نشر جذر الفعل. يركز السؤال البحثي على إنشاء ما إذا كانت خوارزمية التشابه TM تقيس مزيجا من التثبيتات الانتشاري ككلمة أو كتدخل في الطابع عند استرداد شريحة. إذا تم التعامل معها كتدخل في الطابع، هل تعاقب أنواع التدخل بنفس القدر أو بشكل مختلف؟ يفحص هذه الورقة تجريبيا، من خلال منهجية اختبار الصندوق الأسود وأداة جناح اختبار، والعقوبات التي فرضت الخوارزميات الحالية لأنظمة TM عندما تكون شرائح الإدخال ومصادر TM المستردة هي نفسها بالضبط، باستثناء اختلاف في ملحق لانضمام. من المتوقع أن تكون أنظمة TM بعض المعرفة اللغوية، فإن العقوبة ستكون خفيفة للغاية، والتي ستكون مفيدة للمترجمين، نظرا لأن مباراة عالية التسجيل سيتم تقديمها بالقرب من أعلى قائمة المقترحات. ومع ذلك، فإن تحليل إخراج أنظمة TM يظهر أن التصفيات الانتشارية تعاقب بشكل أكبر من المتوقع بطرق مختلفة. قد يتم التعامل معها كتدخل على الكلمة بأكملها، أو كغير حرف واحد.
على الرغم من شعبية هائلة لأنظمة ذاكرة الترجمة والبحث النشط في هذا المجال، لا تزال ميزات معالجة اللغة الخاصة بها تعاني من قيود معينة.في حين أن العديد من الأوراق الأخيرة تركز على قدرات مطابقة الدلالية من TMS، فإن هذه الدراسة المخططة ستعالج كيفية أداء ه ذه الأدوات عند التعامل مع شرائح أطول وما إذا كان هذا قد يكون سببا لدرجات مطابقة أقل.سيتم تنفيذ تجربة على Corpora من مجالات مختلفة (متكررة).بعد النتائج، سيتم تقديم توصيات للتطورات المستقبلية من TMS الجديدة.
أنظمة ذاكرة الترجمة (TMS) هي المكون الرئيسي لأدوات الترجمة المساعدة بمساعدة الكمبيوتر. يقومون بتخزين الترجمات التي تسمح بتوفير الوقت عن طريق تقديم الترجمات على قاعدة البيانات من خلال مطابقة عدة أنواع مثل المباريات الغامضة، والتي تحسبها خوارزميات مثل مسافة التعديل. ومع ذلك، أظهرت الدراسات أوجه القصور اللغوي لهذه النظم والصعوبات في استرجاع البيانات أو الحصول على نسبة عالية من المطابقة، خاصة بعد تطبيق التحولات النحوية والدلوية هي التغيير الصوتي النشط / السلبي، تغيير ترتيب الكلمات، الاستبدال بواسطة مرادف أو ضمير شخصي، على سبيل المثال. تقدم هذه الورقة نتائج دراسة تجريبية حيث نحلل البيانات النوعية والكمية من الاستبيانات التي أجريت مع المترجمين المحترفين للإسبانية والفرنسية والعربية من أجل تحسين فعالية TMS واستكشاف جميع الاحتمالات لدمج مزيد من المعالجة اللغوية من عشرة أنواع التحول وبعد النتائج مشجعة، وسمحت لنا لمعرفة عملية الترجمة نفسها؛ التي نقترحنا أداة معالجة مسبقة التحرير لتحسين عمليات المطابقة واسترجح العمليات.
قام تطوير تقنيات الترجمة، مثل ذاكرة الترجمة والترجمة الآلية، قد غيرت تماما سير عمل صناعة الترجمة وسير العمل في العقود الماضية.ومع ذلك، تم تطوير TM و MT بشكل منفصل حتى وقت قريب.سيقوم هذا المشروع المستمر بدراسة التكامل الخارجي ل TM و MT، وفحص ما إذا كا نت الجهود الإنتاجية وما بعد التحرير للمترجمين أعلى أو أقل من استخدام TM فقط.تحقيقا لهذه الغاية، سنقوم بإجراء تجربة حيث سيطلب من طلاب الترجمة والمترجمين المحترفين ترجمة نصين قصيرين؛ثم سنتحقق من جهود ما بعد التحرير (الجهود الزمنية والتقنية والمعرفية) ونوعية النصوص المترجمة.
يهدف هذا البحث إلى اقتراح طريقة لتحسين نتائج استرجاع المعلومات العربية دلالياً و ذلك بتلخيص النصوص تجريدياً (Abstractive Summary) باستخدام خوارزميات معالجة اللغات الطبيعية (NLP), حل غموض معاني الكلمات (WSD) و قياس التشابهية الدلالية (Semantic Si milarity) فيما بينها باستخدام الأنتولوجيا العربية Arabic WordNet.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا