ترغب بنشر مسار تعليمي؟ اضغط هنا

تحليل التباين المفاجئ في كلمة تضمين الاستقرار عبر اللغات

Analyzing the Surprising Variability in Word Embedding Stability Across Languages

615   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد Word Embeddings تمثيلات قوية تشكل أساس العديد من هياكنة معالجة اللغة الطبيعية، سواء باللغة الإنجليزية ولدا في لغات أخرى.للحصول على مزيد من البصائل في Adgeddings Word، نستكشف استقرارها (على سبيل المثال، تتداخل بين أقرب جيران من كلمة في مسافات مختلفة التضمين) في لغات متنوعة.نناقش الخصائص اللغوية المرتبطة بالاستقرار، مما يدل على رؤى حول الارتباطات ذات الأنظمة الجنسانية اللغوية، وغيرها من الميزات.هذا له آثار على استخدام الاستخدام، لا سيما في البحث الذي يستخدمها لهم لدراسة الاتجاهات اللغوية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعتبر Adgedding Word ضرورية لنماذج الشبكة العصبية لمختلف مهام معالجة اللغة الطبيعية. نظرا لأن كلمة تضمينها عادة ما يكون لها حجم كبير، من أجل نشر نموذج شبكة عصبي وجوده على أجهزة Edge، يجب ضغطه بشكل فعال. كانت هناك دراسة لاقتراح طريقة تقريبية منخفضة رت بة بلوك من أجل تضمين كلمة، تسمى GroupReduce. حتى لو كان هيكلهم فعالا، فإن الخصائص وراء مفهوم برنامج تضمين الكلمة الحكيمة غير الحكيمة لم يتم استكشافه بما فيه الكفاية. بدافع من هذا، نحن نحسن Grouppreduce من حيث ترجيح الكلمة والهيت. بالنسبة للتوزيع النصي، نقترح طريقة بسيطة ولكنها فعالة مستوحاة من مصطلح طريقة تردد المستندات العكسية في التردد وطريقة تامة بناء عليهم، نبني كلمة تمييزية تضمين خوارزمية ضغط. في التجارب، نوضح أن الخوارزمية المقترحة تجد بشكل أكثر فعالية أوزان الكلمات أكثر من المنافسين في معظم الحالات. بالإضافة إلى ذلك، نوضح أن الخوارزمية المقترحة يمكن أن تتصرف مثل إطار من خلال التعاون الناجح مع الكمي.
تزيين الكلمات المتبقية كلمة (CLWES) ترميز الكلمات من لغتين أو أكثر في مساحة مشتركة عالية الأبعاد التي تمثل ناقلات تمثل الكلمات ذات معنى مماثل (بغض النظر عن اللغة) عن كثب. تعلم الأساليب الحالية لبناء تعيينات CLWES عالية الجودة التي تقلل من وظيفة خسارة المعايير ℓ2. ومع ذلك، فقد ثبت أن هدف التحسين هذا هو حساسا للقيم المتطرفة. بناء على قاعدة مانهاتن الأكثر قوة (AKA. ℓ1 NORM) معيار الجيدة، تقترح هذه الورقة خطوة بسيطة بعد المعالجة لتحسين CLWES. ميزة هذا النهج هي أنه غير ملائم تماما للعملية التدريبية للفقر الأصلي ويمكن تطبيقها على نطاق واسع. يتم إجراء تجارب واسعة النطاق التي تنطوي على عشرة لغات متنوعة وموظفة مدربة على شريعة مختلفة. تظهر نتائج التقييم المستندة إلى تحريض المعجم الثنائي اللغة والتحويل عبر اللغات لمهام الاستدلال باللغة الطبيعية أن الصقل ℓ1 يتفوق بشكل كبير على أربعة خطوط خطوط خطوط خطوط أخرى في كل من الإعدادات الإشرافية غير المشرف. لذلك يوصى باعتماد هذه الاستراتيجية كمعيار لأساليب CLWE.
كيف تشرح بيل غيتس إلى الألمانية؟يرتبط بتأسيس شركة في الولايات المتحدة، لذلك ربما يمكن للمؤسس الألماني كارل بنز أن يقف في البوابات في تلك السياقات.يسمى هذا النوع من الترجمة التكيف في مجتمع الترجمة.حتى الآن، لم تتم هذه المهمة بشكل حسابي.يمكن استخدام ال تكيف التلقائي في معالجة اللغة الطبيعية للترجمة الآلية وغير مباشرة لتوليد سؤالا جديدا يرد على مجموعات البيانات والتعليم.نقترح طريقتان تلقائيا ومقارنتها عن نتائج بشرية لهذه المهمة الرواية NLP الرواية.أولا، تتكيف قاعدة المعرفة المهيكلة الكيانات المسماة باستخدام خصائصها المشتركة.ثانيا، أساليب تعيينات التضمين الحسابية والمتعاملة التعاملية تحدد المرشحين أفضل، ولكن على حساب الميزات القابلة للتفسير.نقيم أساليبنا من خلال مجموعة بيانات جديدة من التكيف البشري.
تعتمد أنظمة متعددة اللغات متعددة اللغات على المفردات المشتركة التي تغطي جميع اللغات التي تغطي بما فيه الكفاية. تحقيقا لهذه الغاية، فإن النهج البسيط والمستعمل بشكل متكرر يستفيد من مفهليات الكلمات الفرعية التي تم إنشاؤها بشكل مشترك على عدة لغات. نحن نف ترض أن مثل هذه المفردات هي فرعية نفسها بسبب الإيجابيات الخاطئة (الكلمات الفرعية المماثلة مع معاني مختلفة عبر اللغات) والسلبيات الخاطئة (كلمات فرعية مختلفة مع معاني مماثلة). لمعالجة هذه المشكلات، نقترح رسم الخرائط عن طريق الكلمات الفرعية ومثبتة عبر اللغات (SMALA)، وهي طريقة لبناء مخصصات الكلمات الفرعية ثنائية اللغة. تقوم SMALA باستخراج محاذاة الكلمات الفرعية باستخدام تقنية رسم الخرائط غير المزودة بعملية رسم الخرائط واستخدامها لإنشاء مراسي عبر اللغات بناء على أوجه تشابه الكلمات الفرعية. نوضح فوائد SMALA للاستدلال اللغوي للغة الطبيعية المتبادلة (XNLI)، حيث يحسن تحويل صفرية إلى لغة غير مرئية دون بيانات مهمة، ولكن فقط من خلال تقاسم تضييق الكلمات الفرعية. علاوة على ذلك، في الترجمة الآلية العصبية، نوضح أن مفردات الكلمة الفرعية المشتركة التي تم الحصول عليها مع Smala تؤدي إلى أعلى درجات بلو على أحكام تحتوي على العديد من الإيجابيات الخاطئة والسلبيات الخاطئة.
الاكتشاف الساخرة ذات أهمية كبيرة في فهم المشاعر والآراء الحقيقية للناس.العديد من التقيمات عبر الإنترنت، مراجعات، تعليقات وسائل التواصل الاجتماعي، إلخ.لقد تم بالفعل إجراء العديد من الأبحاث بالفعل في هذا المجال، لكن معظم الباحثين درس تحليل الساركاز الإ نجليزي مقارنة بالبحثية تتم في تحليل السخرية العربية بسبب تحديات اللغة العربية.في هذه الورقة، نقترح نهجا جديدا لتحسين اكتشاف السخرية العربية.يتم استخدام نهجنا تكبير البيانات، وكلمة السياق، ونموذج الغابات العشوائية للحصول على أفضل النتائج.كانت دقةنا في المهمة المشتركة بشأن السخرية والكشف عن المعنويات باللغة العربية 0.5189 ل F1-Saarcastic مثل المقياس الرسمي باستخدام DataSet Arsarcasmv2 المشترك (أبو فرحة، وآخرون، 2021).

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا