ترغب بنشر مسار تعليمي؟ اضغط هنا

كلمة تبادل الكلمة تضمين التوصيل حسب التحسين $ \ ELL_1 $

Cross-Lingual Word Embedding Refinement by $\ell_1$ Norm Optimisation

278   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تزيين الكلمات المتبقية كلمة (CLWES) ترميز الكلمات من لغتين أو أكثر في مساحة مشتركة عالية الأبعاد التي تمثل ناقلات تمثل الكلمات ذات معنى مماثل (بغض النظر عن اللغة) عن كثب. تعلم الأساليب الحالية لبناء تعيينات CLWES عالية الجودة التي تقلل من وظيفة خسارة المعايير ℓ2. ومع ذلك، فقد ثبت أن هدف التحسين هذا هو حساسا للقيم المتطرفة. بناء على قاعدة مانهاتن الأكثر قوة (AKA. ℓ1 NORM) معيار الجيدة، تقترح هذه الورقة خطوة بسيطة بعد المعالجة لتحسين CLWES. ميزة هذا النهج هي أنه غير ملائم تماما للعملية التدريبية للفقر الأصلي ويمكن تطبيقها على نطاق واسع. يتم إجراء تجارب واسعة النطاق التي تنطوي على عشرة لغات متنوعة وموظفة مدربة على شريعة مختلفة. تظهر نتائج التقييم المستندة إلى تحريض المعجم الثنائي اللغة والتحويل عبر اللغات لمهام الاستدلال باللغة الطبيعية أن الصقل ℓ1 يتفوق بشكل كبير على أربعة خطوط خطوط خطوط خطوط أخرى في كل من الإعدادات الإشرافية غير المشرف. لذلك يوصى باعتماد هذه الاستراتيجية كمعيار لأساليب CLWE.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعتبر Adgedding Word ضرورية لنماذج الشبكة العصبية لمختلف مهام معالجة اللغة الطبيعية. نظرا لأن كلمة تضمينها عادة ما يكون لها حجم كبير، من أجل نشر نموذج شبكة عصبي وجوده على أجهزة Edge، يجب ضغطه بشكل فعال. كانت هناك دراسة لاقتراح طريقة تقريبية منخفضة رت بة بلوك من أجل تضمين كلمة، تسمى GroupReduce. حتى لو كان هيكلهم فعالا، فإن الخصائص وراء مفهوم برنامج تضمين الكلمة الحكيمة غير الحكيمة لم يتم استكشافه بما فيه الكفاية. بدافع من هذا، نحن نحسن Grouppreduce من حيث ترجيح الكلمة والهيت. بالنسبة للتوزيع النصي، نقترح طريقة بسيطة ولكنها فعالة مستوحاة من مصطلح طريقة تردد المستندات العكسية في التردد وطريقة تامة بناء عليهم، نبني كلمة تمييزية تضمين خوارزمية ضغط. في التجارب، نوضح أن الخوارزمية المقترحة تجد بشكل أكثر فعالية أوزان الكلمات أكثر من المنافسين في معظم الحالات. بالإضافة إلى ذلك، نوضح أن الخوارزمية المقترحة يمكن أن تتصرف مثل إطار من خلال التعاون الناجح مع الكمي.
تعد Word Embeddings تمثيلات قوية تشكل أساس العديد من هياكنة معالجة اللغة الطبيعية، سواء باللغة الإنجليزية ولدا في لغات أخرى.للحصول على مزيد من البصائل في Adgeddings Word، نستكشف استقرارها (على سبيل المثال، تتداخل بين أقرب جيران من كلمة في مسافات مختل فة التضمين) في لغات متنوعة.نناقش الخصائص اللغوية المرتبطة بالاستقرار، مما يدل على رؤى حول الارتباطات ذات الأنظمة الجنسانية اللغوية، وغيرها من الميزات.هذا له آثار على استخدام الاستخدام، لا سيما في البحث الذي يستخدمها لهم لدراسة الاتجاهات اللغوية.
الاكتشاف الساخرة ذات أهمية كبيرة في فهم المشاعر والآراء الحقيقية للناس.العديد من التقيمات عبر الإنترنت، مراجعات، تعليقات وسائل التواصل الاجتماعي، إلخ.لقد تم بالفعل إجراء العديد من الأبحاث بالفعل في هذا المجال، لكن معظم الباحثين درس تحليل الساركاز الإ نجليزي مقارنة بالبحثية تتم في تحليل السخرية العربية بسبب تحديات اللغة العربية.في هذه الورقة، نقترح نهجا جديدا لتحسين اكتشاف السخرية العربية.يتم استخدام نهجنا تكبير البيانات، وكلمة السياق، ونموذج الغابات العشوائية للحصول على أفضل النتائج.كانت دقةنا في المهمة المشتركة بشأن السخرية والكشف عن المعنويات باللغة العربية 0.5189 ل F1-Saarcastic مثل المقياس الرسمي باستخدام DataSet Arsarcasmv2 المشترك (أبو فرحة، وآخرون، 2021).
في هذا العمل، نقوم بتحليل أداء وخصائص نماذج تضمين الكلمة المتبقية التي تم إنشاؤها بواسطة أساليب المحاذاة المستندة إلى تعيين الخرائط.نحن نستخدم العديد من التدابير الخاصة بالجور وضمان التشابه للتنبؤ بعشرات BLI من تعيينات تضمين التضمين عبر اللغات على ثل اثة أنواع من كوربورا وثلاث أساليب تضمين و 55 زوجا للغة.تؤكد نتائجنا التجريبية على أنها بدلا من مجرد حجم، فإن مقدار المحتوى المشترك في Training Corpora ضروري.تتجلى هذه الظاهرة في ذلك) على الرغم من أحجام كوربوس الأصغر، باستخدام الأجزاء المقارنة فقط من ويكيبيديا لتدريب مساحات تضمين الأحادية المهتملة غالبا ما تكون أكثر فعالية من الاعتماد على جميع محتويات ويكيبيديا، 2) أصغر، في المقابلتعمل Wikipedia الأقل متنوعة في ويكيبيديا دائما أفضل بكثير كدولة تدريبية لتعيينات ثنائية اللغة من ويكيبيديا الإنجليزية المستخدمة في كل مكان.
تكييف ترتيب الكلمات من لغة واحدة إلى أخرى هو مشكلة رئيسية في التنبؤ المنظم عبر اللغات.تشفير الجملة الحالية (على سبيل المثال، RNN، محول مع تضيير الموقف) هي عادة ترتيب الكلمة الحساسة.حتى مع وجود تمثيلات نموذج موحدة (MUSE، MBERT)، قد تؤذي تناقضات ترتيب الكلمات التكيف مع النماذج.في هذه الورقة، نبني نماذج التنبؤ الهيكلية بمدخلات كيس من الكلمات، وإدخال وحدة إعادة ترتيب جديدة لتنظيم الكلمات بعد ترتيب لغة المصدر، والذي يتعلم استراتيجيات إعادة ترتيب محددة المهام من نموذج تنبئ النظام للأغراض العامة.تظهر التجارب على تحليل التبعية المتبادلة الصفرية وعلامات نقاط البيع، والعلامات المورفولوجية أن طرازنا يمكن أن يحسن بشكل كبير من أداء اللغات المستهدفة، وخاصة لغات بعيدة عن اللغة المصدر.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا