ترغب بنشر مسار تعليمي؟ اضغط هنا

امتداد إحصائي لترميز بايت زوج

A Statistical Extension of Byte-Pair Encoding

176   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تجزئة الكلمات الفرعية هي حاليا أداة قياسية لتدريب أنظمة الترجمة الآلية العصبية (MT) ومهام NLP الأخرى. الهدف هو تقسيم الكلمات (في المصدر واللغات المستهدفة) إلى وحدات أصغر تشكل بعد ذلك المدخلات ومفردات نظام MT. الهدف من الحد من حجم المدخلات ومفردات الإخراج هو زيادة قدرات تعميم نموذج الترجمة، مما يتيح للنظام ترجمة وإنشاء كلمات نادرة وجديدة (غير مرئية) في وقت الاستدلال من خلال الجمع بين الوحدات الفرعية التي شوهدت سابقا. من الناحية المثالية، نتوقع أن تحتوي الوحدات التي تم إنشاؤها بعض المعنى اللغوي، بحيث يتم إنشاء الكلمات بطريقة ترفيهية. ومع ذلك، فإن أكثر طريقة تقسيم الكلمات الأكثر شعبية، ترميز بايت زوج (BPE)، والتي تنشأ من أدب ضغط البيانات، لا تشمل معايير صريحة لصالح الانقصام اللغوي أو للعثور على الحبيبية الفرعية الأمثل للكلمة الفرعية لبيانات التدريب المعطاة. في هذه الورقة، نقترح امتداد دوافع إحصائية خوارزمية BPE ومعيار التقارب الفعال الذي يتجنب دورة التجربة المكلفة اللازمة لتحديد أفضل حجم المفردات الفرعية. تظهر النتائج التجريبية مع اللغات الغنية المورفولوجية أن نموذجنا يحصل على درجات Bleu المثالية تقريبا وتنتج تجزئة كلمات أفضل مورفولوجية، مما يسمح بتوسيع نطاق تعميم BPE في ترجمة الجمل التي تحتوي على كلمات جديدة، كما هو موضح عبر التقييم البشري.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مجردة تم تحديد نوعية تقييم تقييم التلخيص من خلال حساب الارتباط بين درجاته والشروح البشرية عبر عدد كبير من الملخصات. في الوقت الحالي، من غير الواضح مدى دقة تقديرات الارتباط هذه، ولا عما إذا كانت الاختلافات بين علاقات المقاييس تعكس فرقا حقيقيا أو إذا ك ان من المقرر أن مجرد فرصة. في هذا العمل، نتعامل مع هاتين المشكلتين من خلال اقتراح طرق لحساب فترات الثقة وتشغيل اختبارات الفرضية للترشيح باستخدام أساليب إعادة التقييد والنساء التمهيد والتلبيل. بعد تقييم أي من الأساليب المقترحة هو الأنسب للتلخيص من خلال تجربتي المحاكاة، نحلل نتائج تطبيق هذه الأساليب إلى العديد من مقاييس التقييم التلقائي المختلفة عبر ثلاث مجموعات من التعليقات الشروحية البشرية. نجد أن فترات الثقة هي واسعة إلى حد ما، مما يدل على عدم اليقين العالي في موثوقية المقاييس التلقائية. علاوة على ذلك، على الرغم من أن العديد من المقاييس يفشل في إظهار التحسينات الإحصائية على Rouge، فإن اثنين من الأعمال الأخيرة، Qaeval و Bertscore، تفعل ذلك في بعض إعدادات التقييم
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال مهمة، استغلنا بيانات أحادية الأونلينغ عن طريق تضيير Word مسبقا في Transformer Model Necural Translation للتعامل مع قيود Corpus الموازية.لقد حقق نموذجنا تقييم ثنائي اللغة التقييم (بلو) 0.05، درجة التقييم البديهات بديهية سهلة اللغة (RIBES) في المرتبة (RIBES) من 24.80 ونتيجة معدل تحرير الترجمة من 97.24 لكل من Tamil-to-Telugu و Teluguترجمات التاميل على التوالي.
تقدم هذه الورقة طريقة لتحديد أنماط قواعد اللغة الثنائية الثابتة وتستقل مثيلات العبارات ثنائية اللغة من زوج الجملة الإنجليزي - الصينية.في نهجنا، يتم تحليل زوج الجملة الإنجليزية الصينية لتحديد أنماط القواعد الإنجليزية والنظرات الصينية.تنطوي الطريقة على توليد ترجمات كل نمط قواعد اللغة الإنجليزية وحساب احتمال ترجمة الكلمات من كورسا الموازية الكلمة المحاذاة.تسمح لنا النتائج باستخراج أزواج العبارات الإنجليزية الأكثر احتمالا في زوج الجملة.نقدم نظام نموذجي ينطبق الطريقة لاستخراج أنماط القواعد والعبارات في الجمل الموازية.يوضح التقييم بشأن الأمثلة المختارة بشكل عشوائي من القاموس أن نهجنا لديه أداء جيد بشكل معقول.نحن نستخدم قاضي الإنسان لتقييم العبارات الثامنة الناتجة عن طريقنا.النتائج لديها إمكانية مساعدة تعلم اللغة وأبحاث الترجمة الآلية.
في هذه الورقة، نركز على تحديد أزواج الحجة التفاعلية من وظيفتين مع مواقف معاكسة إلى موضوع معين.النظر في الآراء يتم تبادلها من وجهات نظر مختلفة موضوع المناقشة، ندرس تمثيلات منفصلة للحجج لالتقاط جوانب متفاوتة في لغات الحال (على سبيل المثال، التركيز من ا لنقاش وسلوك المشارك).علاوة على ذلك، فإننا نستخدم الهيكل الهرمي لنموذج المعلومات بعد الحكمة التي تتضمن المعرفة السياقية.تظهر النتائج التجريبية على مجموعة البيانات الواسعة النطاق التي تم جمعها من CMV أن إطار عملنا المقترح قد يتفوق بشكل كبير على خطوط الأساس التنافسية.تكشف التحليلات الإضافية لماذا ينتج نموذجنا أداء متفوقا وأثبت فائدة تمثيلاتنا المستفادة.
على الرغم من إظهار قيم واعدة للتطبيقات المصب، فإن توليد السؤال والإجابة معا يتم استكشافها. في هذه الورقة، نقدم مهمة جديدة تستهدف توليد زوج الإجابة على الأسئلة من الصور المرئية. لا يتطلب عدم توليد أزواج حول الإجابات المتنوعة فقط ولكن أيضا الحفاظ على ا لاتساق منهم. نحن ندرس نماذج جيل مختلفة لهذه المهمة واقتراح ثلاث نماذج: نموذج خط الأنابيب، النموذج المشترك، النموذج المتسلسل. نحن ندمج الاستدلال الاختلافي في هذه النماذج لتحقيق التنوع والاتساق. ونحن نقترح أيضا تقدير تمثيل المنطقة ومحاذاة الاهتمام لتحسين الاتساق أكثر. ونحن أخيرا وضع مقيم كقيط كمي للاتساق. نحن نقوم بالتحقق من نهجنا على معيارين، VQA2.0 و Visual-7W، من خلال تقييم التنوع والاتساق يدويا يدويا. تظهر النتائج التجريبية فعالية نماذجنا: يمكن أن تولد أزواج متنوعة أو متسقة. علاوة على ذلك، يمكن استخدام هذه المهمة لتحسين جيل السؤال المرئي والإجابة على السؤال المرئي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا