ترغب بنشر مسار تعليمي؟ اضغط هنا

مفاضلة مفاجأة مدة عبر الإنترنت وداخل لغات العالم

A surprisal--duration trade-off across and within the world's languages

188   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

بينما توجد عشرات من اللغات الطبيعية، ولكل منها ميزاتها الفريدة والخصوصيات، فإنهم جميعهم يشتركون موضوع موحد: تمكين التواصل البشري.قد نتوقع ذلك بشكل معقول أن أشكال الإدراك البشرية كيف تتطور هذه اللغات وتستخدم.على افتراض أن القدرة على معالجة المعلومات ثابتة تقريبا عبر السكان البشري، نتوقع أن تنظر إلى مفاضلة مفاجأة مدةنقوم بتحليل هذه المفاضلة باستخدام Corpus من 600 لغة، وبعد التحكم في العديد من الارتباطات المحتملة، نجد أدلة داعمة قوية في كلا الإعدادتين.على وجه التحديد، نجد أنه في المتوسط، يتم إنتاج الهواتف أسرع بلغات حيث تكون أقل إثارة للدهشة والعكس.علاوة على ذلك، نؤكد أن الهواتف الأكثر إثارة للدهشة هي أطول، في المتوسط، في 319 لغة من أصل 600. وبالتالي نستنتج أن هناك أدلة قوية على مفاضلة مفاجأة مدة العمل في العملية، سواء بلغت لغات العالم وداخلها.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

كيف تشرح بيل غيتس إلى الألمانية؟يرتبط بتأسيس شركة في الولايات المتحدة، لذلك ربما يمكن للمؤسس الألماني كارل بنز أن يقف في البوابات في تلك السياقات.يسمى هذا النوع من الترجمة التكيف في مجتمع الترجمة.حتى الآن، لم تتم هذه المهمة بشكل حسابي.يمكن استخدام ال تكيف التلقائي في معالجة اللغة الطبيعية للترجمة الآلية وغير مباشرة لتوليد سؤالا جديدا يرد على مجموعات البيانات والتعليم.نقترح طريقتان تلقائيا ومقارنتها عن نتائج بشرية لهذه المهمة الرواية NLP الرواية.أولا، تتكيف قاعدة المعرفة المهيكلة الكيانات المسماة باستخدام خصائصها المشتركة.ثانيا، أساليب تعيينات التضمين الحسابية والمتعاملة التعاملية تحدد المرشحين أفضل، ولكن على حساب الميزات القابلة للتفسير.نقيم أساليبنا من خلال مجموعة بيانات جديدة من التكيف البشري.
إن التقاط معنى كلمة في السياق والتمييز بين المراسلات والاختلافات عبر اللغات هو مفتاح بناء نماذج تمثيل نصية متعددة اللغات والنجاح. ومع ذلك، فإن مجموعات بيانات التقييم المتعددة اللغات الحالية التي تقيم الدلالات المعجمية في السياق "لها قيود مختلفة. على وجه الخصوص، 1) تقتصر تغطيتها اللغوية على لغات الموارد العالية والانحساج لصالح سوى عدد قليل من الأسر والمناطق اللغوية، 2) تصميم يجعل المهمة قابلة للحل عبر الإشارات السطحية، والتي تؤدي إلى تضخم بشكل مصطنع (وأحيانا سوبر -Human) عروض التشفير المحددين، و 3) لا يوجد دعم للتقييم المتبادل اللغوي. من أجل معالجة هذه الثغرات، نقدم AM2ICO (المعنى الخصومة والتعدد اللغات في السياق)، مجموعة التقييم الواسع التغطية واللغات متعددة اللغات؛ يهدف إلى تقييم إدراج قدرة نماذج التمثيل الحديثة (SOTA) لفهم هوية معنى الكلمات في السياقات المتبادلة لمدة 14 أزواج لغوية. نقوم بإجراء سلسلة من التجارب في مجموعة واسعة من الإعدادات وإظهار الطبيعة الصعبة ل AM2ICO. تكشف النتائج أن تشفير سوتا الحالية التي يتعامل معها يتخلف بشكل كبير وراء الأداء البشري، ويتم ملاحظة أكبر فجوات لغات الموارد المنخفضة ولغات مختلفة عن اللغة الإنجليزية.
تعتمد أنظمة متعددة اللغات متعددة اللغات على المفردات المشتركة التي تغطي جميع اللغات التي تغطي بما فيه الكفاية. تحقيقا لهذه الغاية، فإن النهج البسيط والمستعمل بشكل متكرر يستفيد من مفهليات الكلمات الفرعية التي تم إنشاؤها بشكل مشترك على عدة لغات. نحن نف ترض أن مثل هذه المفردات هي فرعية نفسها بسبب الإيجابيات الخاطئة (الكلمات الفرعية المماثلة مع معاني مختلفة عبر اللغات) والسلبيات الخاطئة (كلمات فرعية مختلفة مع معاني مماثلة). لمعالجة هذه المشكلات، نقترح رسم الخرائط عن طريق الكلمات الفرعية ومثبتة عبر اللغات (SMALA)، وهي طريقة لبناء مخصصات الكلمات الفرعية ثنائية اللغة. تقوم SMALA باستخراج محاذاة الكلمات الفرعية باستخدام تقنية رسم الخرائط غير المزودة بعملية رسم الخرائط واستخدامها لإنشاء مراسي عبر اللغات بناء على أوجه تشابه الكلمات الفرعية. نوضح فوائد SMALA للاستدلال اللغوي للغة الطبيعية المتبادلة (XNLI)، حيث يحسن تحويل صفرية إلى لغة غير مرئية دون بيانات مهمة، ولكن فقط من خلال تقاسم تضييق الكلمات الفرعية. علاوة على ذلك، في الترجمة الآلية العصبية، نوضح أن مفردات الكلمة الفرعية المشتركة التي تم الحصول عليها مع Smala تؤدي إلى أعلى درجات بلو على أحكام تحتوي على العديد من الإيجابيات الخاطئة والسلبيات الخاطئة.
أصبحت نماذج لغة ملثم بسرعة قياسي فعلي عند معالجة النص. في الآونة الأخيرة، اقترح العديد من الأساليب زيادة إثراء تمثيلات Word مع مصادر المعرفة الخارجية مثل الرسوم البيانية المعرفة. ومع ذلك، يتم وضع هذه النماذج وتقييمها في إعداد أحادي فقط. في هذا العمل، نقترح مهمة تنبؤات كيان مستقلة في اللغة كإجراء تدريب متوسط ​​لتمثيلات الكلمات البرية على دلالات الكيان وجسم الفجوة عبر لغات مختلفة عن طريق المفردات المشتركة للكيانات. نظهر أن نهجنا يضجع بفعالية إلى معرفة جديدة من المعرفة المعجمية في النماذج العصبية، مما يحسن أدائها في مهام دلالية مختلفة في إعداد Croadlingual Zero-Shot. كميزة إضافية، لا يتطلب التدريب الوسيط لدينا أي مدخلات تكميلية، مما يسمح بتطبيق نماذجنا على مجموعات بيانات جديدة على الفور. في تجاربنا، نستخدم مقالات ويكيبيديا تصل إلى 100 لغة وتراقب بالفعل مكاسب متسقة مقارنة مع خطوط الأساس القوية عند التنبؤ بالكيانات باستخدام فقط Wikipedia الإنجليزية. يؤدي إضافة لغات إضافية أخرى إلى تحسينات في معظم المهام حتى نقطة معينة، ولكن عموما وجدنا أنها غير تافهة على تحسين التحسينات في عملية تحويل النموذج عن طريق التدريب على كميات متزايدة من أي وقت مضى لغات ويكيبيديا.
في حين أن العواطف جوانب عالمية لعلم النفس البشري، يتم التعبير عنها بشكل مختلف عبر لغات وثقافات مختلفة.نقدم مجموعة بيانات جديدة من أكثر من 530K منشورات عامة من الفيسبوك المجففة في 18 لغة، والتي تحمل تصنيفها بخمس عواطف مختلفة.باستخدام Asbeddings Bert م تعدد اللغات، نوضح أن العواطف يمكن استنتاجها بشكل موثوق في الداخل وبين اللغات.يعد التعلم الصفرية النتائج الواعدة لغات الموارد المنخفضة.بعد النظريات المعمارية للعواطف الأساسية، نقدم تحليلا مفصلا لإمكانيات وحدود تصنيف العاطفة عبر اللغات.نجد أن التشابه الهيكلية والنظامي بين اللغات يسهل التعلم عبر اللغات، بالإضافة إلى التنوع اللغوي لبيانات التدريب.تشير نتائجنا إلى أن هناك القواسم المشتركة وراء التعبير عن العاطفة بلغات مختلفة.نطلق علنا البيانات المجهولية للبحث في المستقبل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا