ترميز نماذج اللغة المدربة مسبقا (LMS) معلومات غنية حول الهيكل اللغوي ولكن معرفتهم حول Polysemy المعجمية لا تزال غير واضحة. نقترح إعداد تجريبي رواية لتحليل هذه المعرفة في LMS مدربين على وجه التحديد لغات مختلفة (الإنجليزية والفرنسية والإسبانية واليونانية) وفي بيرتف متعدد اللغات. نقوم بإجراء تحليلنا على مجموعات البيانات المصممة بعناية لتعكس التوزيعات المختلفة بالمعنى، والتحكم في المعلمات التي يرتبط بها بشدة مع Polysemy مثل التردد والفئة النحوية. نوضح أن تمثيلات بيرت المشتقة تعكس الكلمات "مستوى Polysemy وقابلية القسم الخاصة بهم إلى الحواس. تعد المعلومات المتعلقة بالبوليزمي موجودة بشكل أكثر وضوحا في English BertBeddings، لكن النماذج الموجودة بلغات أخرى تمكنت أيضا من إنشاء تمييزات ذات صلة بين الكلمات في مستويات Polysemy المختلفة. تسهم نتائجنا في فهم أفضل للمعارف المشفرة في تمثيلات السياق وفتح طرق جديدة للبحث عن دلالات المعجمات متعددة اللغات.
Pre-trained language models (LMs) encode rich information about linguistic structure but their knowledge about lexical polysemy remains unclear. We propose a novel experimental setup for analyzing this knowledge in LMs specifically trained for different languages (English, French, Spanish, and Greek) and in multilingual BERT. We perform our analysis on datasets carefully designed to reflect different sense distributions, and control for parameters that are highly correlated with polysemy such as frequency and grammatical category. We demonstrate that BERT-derived representations reflect words' polysemy level and their partitionability into senses. Polysemy-related information is more clearly present in English BERT embeddings, but models in other languages also manage to establish relevant distinctions between words at different polysemy levels. Our results contribute to a better understanding of the knowledge encoded in contextualized representations and open up new avenues for multilingual lexical semantics research.
المراجع المستخدمة
https://aclanthology.org/
أهداف المحاذاة الكامنة مثل CTC والفأس تحسن بشكل كبير نماذج الترجمة الآلية غير التلقائي.هل يمكنهم تحسين النماذج التلقائية أيضا؟نستكشف إمكانية تدريب نماذج الترجمة الآلية ذات الجهاز التلقائي بأهداف محاذاة كامنة، ومراقبة ذلك، في الممارسة العملية، ينتج هذ
على الرغم من تحقيق النتائج المشجعة، غالبا ما يعتقد أن نماذج توليد تعبير التعبير العصبي لا تفتقر إلى الشفافية.بركأنا نماذج اختيار النماذج المرجعية العصبية (RFS) لمعرفة إلى أي مدى يتم تعلم الميزات اللغوية التي تؤثر على شكل RE وأسرها نماذج RFS الحديثة.ت
تتطلب المهام الفرعية لتصنيف النية، مثل التواضع على تحول التوزيع، والتكيف مع مجموعات المستخدمين المعينة والتخصيص، والكشف خارج المجال، ومجموعات بيانات واسعة ومرنة للتجارب والتقييم.نظرا لأن جمع مجموعات البيانات هذه هي الوقت والمستهلك للعمل، نقترح استخدا
أصبحت تمثيلات ناقلات عنصر مركزي في نمذجة اللغة الدلالية، مما يؤدي إلى التداخل الرياضي مع العديد من الحقول بما في ذلك النظرية الكمومية. التركيز هو الهدف الأساسي لهذه التمثيل: تمثيل تمثيلات مع الرطب "والأسماك"، كيف ينبغي تمثيل مفهوم السمك الرطب؟ يستطلع
لبناء أسئلة قوية لإجابة أنظمة الرد، نحتاج إلى القدرة على التحقق مما إذا كانت الإجابات على الأسئلة صحيحة حقا، وليس فقط جيدة بما فيه الكفاية "في سياق مجموعات بيانات QA غير الكاملة. نستكشف استخدام الاستدلال اللغوي الطبيعي (NLI) كوسيلة لتحقيق هذا الهدف،