ترغب بنشر مسار تعليمي؟ اضغط هنا

تأثير الترميزات الموضعية على ضغط متعدد اللغات

The Impact of Positional Encodings on Multilingual Compression

132   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

من أجل الحفاظ على معلومات ترتيب الكلمات في إعداد غير تلقائي، تميل هياكل المحولات إلى تضمين المعرفة الموضعية، من خلال (على سبيل المثال) إضافة الترميزات الموضعية إلى Tunken Ageddings. تم اقتراح العديد من التعديلات على الترميزات الموضعية الجيبية المستخدمة في بنية المحولات الأصلية؛ وتشمل هذه، على سبيل المثال، فصل ترميزات الموضع و Adgeddings الرمز المميز، أو تعديل أوزان الاهتمام مباشرة على المسافة بين أزواج Word. نوضح أولا أن هذه التعديلات تميل إلى تحسين نماذج اللغة أحادية الأونلينغ، لا ينتج أي منها نماذج أفضل لغات متعددة اللغات. ثم نرد على ذلك هو: تم تصميم الترميزات الجيبية بشكل صريح لتسهيل التركيب عن طريق السماح بتوقعات خطية على خطوات الوقت التعسفي. هناك فروق أعلى في توزيعات التدريب متعددة اللغات تتطلب ضغطا أعلى، وفي هذه الحالة، تصبح التركيزية لا غنى عنها. تميل الترميزات الموضعية المطلقة (E.G.، في Mbert) إلى تقريبية Abitdings الجيبية في إعدادات متعددة اللغات، لكن هياكل الترميز الموضعي أكثر تعقيدا تفتقر إلى التحيز الاستقرائي لتعلم المحاذاة عبر اللغات بشكل فعال. بمعنى آخر، في حين تم تصميم الترميزات الجيبية الموضعية لتطبيقات أحادية الأونلينغ، فهي مفيدة بشكل خاص في نماذج لغة متعددة اللغات.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التطبيع المعجمي هو مهمة تحويل الكلام في شكلها الموحد. هذه المهمة مفيدة لتحليل المصب، لأنها توفر طريقة للتنسيق (غالبا ما تكون عفوية) تباين لغوي. مثل هذا الاختلاف هو نموذجي للوسائط الاجتماعية التي تتم مشاركة المعلومات في العديد من الطرق، بما في ذلك الل غات المختلفة وتحويل التعليمات البرمجية. منذ عمل Han و Baldwin (2011) منذ عقد من الزمان، اجتذبت التطبيع المعجمي الانتباه باللغة الإنجليزية وعلا بلغات أخرى. ومع ذلك، هناك نقص في وجود معيار مشترك للمقارنة بين النظم عبر اللغات مع إعداد بيانات وتقييم متجانسة. تحدد المهمة المشتركة متعددة الأكسجين لملء هذه الفجوة. نحن نقدم أكبر مؤشر تطبيع متعدد اللغات المتوفرة للجمهور بما في ذلك 13 متغيرات لغة. نقترح إعداد تقييم متجانس مع كل من التقييم الجوهري والخارجي. كما التقييم الخارجي، نستخدم تحليل التبعية ووضع علامات على جزء من مقاييس التقييم القضائية (A-LAS، A-UAS، و A-POS) لحساب التناقضات المحاذاة. جذبت المهمة المشتركة التي استضافتها في W-Nut 2021 9 مشاركا و 18 رسالة. تظهر النتائج أن أنظمة التطبيع العصبي تتفوق على النظام السابق على النظام السابق بهامش كبير. يتأثر أداء وضع العلامات على وضع العلامات في المصب وعلامات جزء من الكلام بشكل إيجابي ولكن بدرجات متفاوتة، مع تحسينات تصل إلى 1.72 A-LAS و 0.85 A-UAS و 1.54 A-POS للنظام الفائز.
خلال العقد الأخير من القرن العشرين ظهرت مجموعة من المتغيرات التكنولوجية المتقدمة في مجالات نظم المعلومات المرتبطة بالحاسبات الآلية و وسائل الاتصال و ضغط البيانات و نقلها عبر شبكات الحاسب الآلي. حيث انتقلت نظم المعلومات من اعتمادها على النص و بعض الرس ومات البيانية البسيطة إلى اعتمادها على استخدام الوسائط المتعددة التي تعمل على توصيل المعلومات في أشكال مختلفة من خلال ترابط و تكامل مجموعة متباينة من التكنولوجيات المختلفة (الصوت, الصور, النص, الفيديو, ..الخ). و قد كان تطور تلك النظم في البداية مقصوراً على الاستخدام المنفرد, و لكن نظراً لأهمية نظم الاتصالات و تطور شبكة الانترنت و استخدام نظم الوسائط المتعددة من قبل مستخدمين متعددين في أماكن مختلفة من حيث الموقع الجغرافي, ظهرت أهمية المشاركة في بيانات الوسائط المتعددة, و بالتالي حتمية تداولها من خلال شبكات الحاسب الآلي. و من هنا ظهرت الحاجة إلى ظهور شبكات ذات مواصفات خاصة يمكنها التعامل مع عناصر الوسائط المتعددة بكفاءة عالية. و من جانب آخر ظهرت أهمية وجود نظم وسائط متعددة لديها القدرة على التعامل مع شبكات الحاسب الآلي. من ذلك نرى بأن هذه النظم سوف تتسم بكبر حجم بياناتها إضافة إلى الصعوبة الحقيقية في نقل هذه البيانات و خاصة عبر شبكات الحاسب. لذلك فقد دعت مشاكل تخزين أحجام كبيرة من البيانات مقارنة مع صغر سعة الأجهزة التخزينية و مشاكل نقل كميات كبيرة منها عبر الشبكات إلى تطوير تقنيات لتخفيض (اختصار) أحجام البيانات قدر الإمكان مما يساعد على توفير في المساحات التخزينية من جهة و توفير الوقت عند إرسال البيانات من جهة ثانية
نقدم نتائج المهمة الأولى على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع.تتكون المهمة على التقييم المتعدد إلى العديد من النماذج الفردية عبر مجموعة متنوعة من اللغات المصدر والمستهدفة.هذا العام، تتألف المهمة على ثلاثة إعدادات مختلفة: (1) المهمة الصغي رة 1 (لغات أوروبا الوسطى / الجنوبية الشرقية)، (2) المهمة الصغيرة 2 (لغات جنوب شرق آسيا)، و (3) مهمة كاملة (كل 101 × 100 زوج أزواج).استخدمت جميع المهام DataSet Flores-101 كمعيار التقييم.لضمان طول العمر من مجموعة البيانات، لم يتم إصدار مجموعات الاختبار علنا وتم تقييم النماذج في بيئة خاضعة للرقابة على Dynabench.كان هناك ما مجموعه 10 فرق مشاركة للمهام، بما مجموعه 151 من العروض النموذجية المتوسطة و 13 نماذج نهائية.تظهر نتائج هذا العام تحسنا كبيرا على خطوط الأساس المعروفة مع +17.8 بلو ل Task-Task2، +10.6 للمهمة الكاملة و +3.6 للمهمة الصغيرة 1.
تعرف الهند باسم أرض العديد من الألسنة واللهجات. الترجمة الآلية العصبية (NMT) هي النهج الحديث الحالي للترجمة الآلية (MT) ولكنه يعمل بشكل أفضل فقط مع مجموعات البيانات الكبيرة التي تفتقر إليها اللغات الهندية عادة، مما يجعل هذا النهج غير قابل للاستمرار. لذلك، في هذه الورقة، نتعامل مع مشكلة ندرة البيانات من خلال تدريب أنظمة NMT متعددة اللغات متعددة اللغات وغير اللغوية التي تنطوي على لغات ?????? ????????????. نحن نقترح تقنية استخدام علامات المجال واللغة المشتركة في إعداد متعدد اللغات. نرسم ثلاث استنتاجات رئيسية من تجاربنا: (1) تدريب نظام متعدد اللغات عبر استغلال التشابه المعجمي على أساس الأسرة اللغوية يساعد في تحقيق متوسط ​​تحسن إجمالي ?. تساعد الرموز اللغوية على نظام المجال متعدد اللغات في الحصول على تحسين متوسط ​​متوسط ​​? ???? ?????? على أساس الأساس، (3) يساعد المرابط بشكل جيد على تحسين تحسين ?-?.? ???? ?????? للحصول على زوج لغة الاهتمام وبعد
الهند هي واحدة من أغنى مراكز اللغات على الأرض وهي متنوعة للغاية وتعدد اللغات. ولكن بصرف النظر عن عدد قليل من اللغات الهندية، ما زال معظمهم يعتبرون فقراء الموارد. نظرا لأن معظم تقنيات NLP تتطلب معرفة لغوية لا يمكن تطويرها إلا من قبل الخبراء والمتحدثين الأصليين في هذه اللغة أو أنها تتطلب الكثير من البيانات المسمى باهظة الثمن مرة أخرى لتوليد، فإن مهمة تصنيف النص تصبح تحديا لمعظم الهندي اللغات. الهدف الرئيسي من هذه الورقة هو معرفة كيف يمكن للمرء الاستفادة من التشابه المعجمي الموجود باللغات الهندية في سيناريو متعدد اللغات. هل يمكن إعادة استخدام نموذج تصنيف مدرب على لغة هندية واحدة لغات هندية أخرى؟ لذا، أجرينا تصنيف نصي بالرصاص عن طريق استغلال التشابه المعجمي وملاحظ أن طرازنا ينفذ بشكل أفضل في تلك الحالات حيث يتداخل المفردات بين مجموعات البيانات اللغوية كحد أقصى. تؤكد تجاربنا أيضا أن نموذجا واحدا متعدد اللغات مدرب عبر رابط استغلال اللغة يتفوق على الأساس من الهوامش الهامة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا