بناء أنظمة NLP التي تخدم الجميع يتطلب محاسبة اختلافات اللهجة. ولكن اللهجات ليست كيانات متجانسة: بالأحرى، يتم التقاط الفروق بين اللهجات وداخلها من خلال وجود وغياب العشرات من ميزات اللهجة في الكلام والنص، مثل حذف كوبولا في إنه ∅ قيد التشغيل ". في هذه الورقة، نقدم مهمة الكشف عن ميزة اللهجة، وتقديم نهج تعليمي متعدد الأيتاكي، بناء على المحولات المحددة مسبقا. بالنسبة لمعظم اللهجات، لا تتوفر كوربورا المشروح على نطاق واسع لهذه الميزات، مما يجعل من الصعب تدريب التعرف عليها. نحن ندرب نماذجنا على عدد صغير من أزواج صغيرة، والبناء على كيفية تحديد اللغويين عادة ميزات اللهجة. التقييم في مجموعة اختبار من 22 ميزات لهجيات للهنديون يدل على أن هذه النماذج تتعلم كيفية التعرف على العديد من الميزات بدقة عالية، وأن عدد قليل من أزواج الحد الأدنى يمكن أن تكون فعالة للتدريب مع الآلاف من الأمثلة المسمى. ونحن نوضح أيضا إمكانية تطبيق ميزة الهياكل على حد سواء كإجراء من كثافة اللهجة وكمعشر لهجة اللهجة.
Building NLP systems that serve everyone requires accounting for dialect differences. But dialects are not monolithic entities: rather, distinctions between and within dialects are captured by the presence, absence, and frequency of dozens of dialect features in speech and text, such as the deletion of the copula in He ∅ running''. In this paper, we introduce the task of dialect feature detection, and present two multitask learning approaches, both based on pretrained transformers. For most dialects, large-scale annotated corpora for these features are unavailable, making it difficult to train recognizers. We train our models on a small number of minimal pairs, building on how linguists typically define dialect features. Evaluation on a test set of 22 dialect features of Indian English demonstrates that these models learn to recognize many features with high accuracy, and that a few minimal pairs can be as effective for training as thousands of labeled examples. We also demonstrate the downstream applicability of dialect feature detection both as a measure of dialect density and as a dialect classifier.
المراجع المستخدمة
https://aclanthology.org/
يحقق هذا العمل في قيمة زيادة الشبكات العصبية المتكررة مع هندسة ميزة لهندسة الطلب العربي الثاني (NADI) 1.2: تحديد المستوى القطري.نقارن أداء LSTM على مستوى الكلمات البسيطة باستخدام Artrained Abbeddings مع واحدة معززة باستخدام ميزة الميزات للميزات اللغو
توضح هذه المقالة نظاما للتنبؤ بمهمة تقوية التعقيد المعجمية (LCP) التي تم استضافتها في Semeval 2021 (المهمة 1) مع مجموعة بيانات جديدة مشروحة مع مقياس Likert.يقع المهمة في مسار الدلالات المعجمية، وتألفت المهمة من التنبؤ بقيمة تعقيد الكلمات في السياق.تم
إن المشكلات، والمكونات غير المعجمية في الكلام، تلعب دورا حاسما في التفاعل البشري البشري.من الصعب التدريب على النماذج المصممة للاعتراف بالمعلومات المشكلية، وخاصة مشاعر الكلام والأسلوب، بسبب مجموعات البيانات المحدودة المسمى المتاحة.في هذا العمل، نقدم إ
تهدف القراءة المستوية (LR) إلى تصنيف النصوص عن طريق المستويات المعرفية للقراء، وهي أساسية في توفير مواد قراءة مناسبة بشأن قدرات القراءة المختلفة. ومع ذلك، تعتمد معظم أساليب LR الحديثة على توافر موارد تفوق وفيرة، مما يمنع تكيفها مع لغات الموارد المنخف
يتطلب التعرف على الكيان المسمى MultiModal (MNER) سد الفجوة بين فهم اللغة والسياق المرئي.في حين أن العديد من التقنيات العصبية متعددة الوسائط قد تم اقتراح دمج الصور في مهمة MNER، فإن قدرة النموذج على الاستفادة من التفاعلات متعددة الوسائط لا تزال مفهومة