ترغب بنشر مسار تعليمي؟ اضغط هنا

combalign: أداة للحصول على محاذاة كلمة عالية الجودة

CombAlign: a Tool for Obtaining High-Quality Word Alignments

480   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

القدرة على توليد محاذاة كلمة دقيقة مفيدة لمجموعة متنوعة من المهام.في حين أن محاذاة الكلمة الإحصائية يمكن أن تعمل بشكل جيد، خاصة عندما تكون بيانات التدريب الموازية وفيرة، فقد تبين مؤخرا نماذج تضمين متعددة اللغات نتائج جيدة في سيناريوهات غير مخالفة.نقيم طريقة فرقة لمحاذاة الكلمات على أربع أزواج لغوية وإظهار ذلك من خلال الجمع بين أدوات متعددة، والاستفادة من نهجها المختلفة، يمكن إجراء مكاسب كبيرة.هذا يحمل للإعدادات التي تتراوح من الموارد المنخفضة جدا إلى المورد العالي.علاوة على ذلك، نقدم اختبار محاذاة ذهبي جديد مجموعة أيسلندية وأداة جديدة سهلة الاستخدام لإنشاء محاذاة Word يدوية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أفضل تحجيم (BWS) أفضل منهجية للتعليق على أساس مثيلات مقارنة والترتيب، بدلا من تصنيف أو تسجيل الحالات الفردية.أظهرت الدراسات فعالية هذه المنهجية المطبقة على مهام NLP من حيث جودة عالية من مجموعات البيانات الناتجة عن طريق ذلك.في ورقة مظاهرة النظام هذه، نقدم LitEScale، مكتبة برامج مجانية لإنشاء وإدارة مهام التوضيحية BWS.يحسب LitEScale tuples typles للتعليق ويدير المستخدمين وعملية التوضيحية، ويخلق معيار الذهب النهائي.يمكن الوصول إلى وظائف LitEScale برمجيا من خلال وحدة نمطية Python، أو عبر واجهتين لمستخدمين بديلين، واحدة قائمة على وحدة التحكم النصية ومقرها على الويب.لقد نمت ونشرنا أيضا نسخة كاملة من Litescale كاملة مع دعم متعدد المستخدمين.
هناك حدود مثيرة في فهم اللغة الطبيعية (NLU) وتوليد (NLG) يدعو (NLG) نماذج لغة (Vision-and) التي يمكن أن تصل إلى إمكانية الوصول إلى مستودعات المعرفة المنظم الخارجية بكفاءة. ومع ذلك، فإن العديد من قواعد المعرفة الموجودة تغطي فقط المجالات المحدودة، أو ت عاني من بيانات صاخبة، والأهم من ذلك كلها يصعب دمجها عادة في خطوط أنابيب اللغة العصبية. لملء هذه الفجوة، ونحن نطلق عرض المرئيات: رسم بياني لمعرفة عالية الجودة (كجم) والتي تشمل العقد مع المواد المتعددة اللغات والصور التوضيحية المتعددة، والعلاقات ذات الصلة بصريا. ونحن نطلق أيضا نموذج استرجاع متعدد الوسائط العصبي يمكنه استخدام الصور أو الجمل كمدخلات واسترداد الكيانات في كجم. يمكن دمج نموذج استرجاع متعدد الوسائط هذا في أي خط أنابيب نموذج (الشبكة العصبية). نحن نشجع مجتمع البحث على استخدام المرئيات لتعزيز البيانات و / أو كمصدر للتأريض، من بين الاستخدامات الأخرى الممكنة. تتميز المرئيات وكذلك نماذج استرجاع متعددة الوسائط متاحة للجمهور ويمكن تنزيلها في عنوان URL هذا: https://github.com/acercalixto/visualsem.
نقدم مجموعة بيانات موازية فيتنامية عالية الجودة ومقدمة على نطاق واسع من أزواج الجملة بنسبة 3.02m، والتي تبلغ 2.9 مليون أزواج أكبر من كوربوس الترجمة الآلية الفيتنامية-الإنجليزية الفيتنامية - IWSLT15.نقوم بإجراء تجارب تقارن خطوط الأساس العصبية القوية و محركات الترجمة الآلية المعروفة على مجموعة بياناتنا وتجد أنه في كل من التقييمات التلقائية والإنسانية: يتم الحصول على أفضل أداء من خلال ضبط التسلسل الدقيق للتسلسل المدرب مسبقاوبعدلدينا أفضل معارفنا، هذه هي أول دراسة الترجمة الفيتنامية على نطاق واسع النطاق.نأمل أن تكون مجموعة بياناتنا المتاحة للجمهور ودراستها نقطة انطلاق للبحث والتطبيقات في المستقبل على الترجمة الفيتنامية والترجمة الآلية الإنجليزية.نطلق سراح DataSet لدينا في: https://github.com/vinairesearch/phomt
تحدد محاذاة Word المراسلات المتعلقة بالمراسلات بين الكلمات في زوج جملة متوازية وتستخدم ومثالا وتدريب الترجمة ذات الجهاز الإحصائي وتعلم قواميس ثنائية اللغة أو لأداء تقدير الجودة.أصبح Totkenization في الكلمات الفرعية خطوة مسبقة مسبق لمعاييرها لعدد كبير من التطبيقات وخاصة أنظمة الترجمة الآلية المفتوحة لمفردات الأحدث.في هذه الورقة، ندرس تماما كيف تتفاعل هذه الخطوة المعالجة مسبقا مع مهمة محاذاة الكلمة واقتراح عدة استراتيجيات التكوين للحصول على كورسا موازية مجزأة جيدا.باستخدام هذه التقنيات الجديدة وتمكنا من تحسين نماذج المحاذاة القائمة على الكلمات الأساسية لستة أزواج لغوية.
يتم تعريف الكلمات بناء على معانيها بطرق مختلفة في موارد مختلفة.يزيد محاذاة حواس الكلمات عبر الموارد المعجمية أحادية العمل، مما يزيد من تغطية المجال وتمكن تكامل البيانات وإدماجها.في هذه الورقة، نستكشف تطبيق أساليب التصنيف باستخدام الميزات المستخرجة يد ويا جنبا إلى جنب مع تقنيات تعليم التمثيل في مهمة محاذاة معنى النصوص والكشف عن العلاقة الدلالية.نوضح أن أداء أساليب التصنيف يختلف بشكل كبير بناء على نوع العلاقات الدلالية بسبب طبيعة المهمة ولكنه يتفوق على التجارب السابقة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا