ترغب بنشر مسار تعليمي؟ اضغط هنا

تمثيلات الأصناف اللغوية موثوقة بإجراء تدابير تشابه Corpus

Representations of Language Varieties Are Reliable Given Corpus Similarity Measures

154   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تدفق هذه الورقة تشابه داخل حدود وبين 84 أصناف لغة عبر تسعة لغات.يتم استخلاص هذه الشركة من المصادر الرقمية (الويب والتويت)، مما يتيح لنا تقييم ما إذا كانت هذه الشركات المشار إليها على جغرافية موثوقة في النمذجة الاختلاف اللغوي.الفكرة الأساسية هي أنه، إذا تمثل كل مصدر بشكل كاف مجموعة متنوعة من اللغات الأساسية واحدة، فيجب أن تكون التشابه بين هذه المصادر مستقرة عبر جميع اللغات والبلدان.توضح الورقة أن هناك اتفاق ثابت بين هذه المصادر باستخدام تدابير التشابه القائم على التردد.يوفر هذا دليلا إضافيا على أن شركة Corsea المرجعية الرقمية التي تمت الإشارة إليها باستمرار تمثل الأصناف اللغوية المحلية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تستخدم Word Embeddings على نطاق واسع في معالجة اللغة الطبيعية (NLP) لمجموعة واسعة من التطبيقات. ومع ذلك، فقد ثبت باستمرار أن هذه المدينات تعكس نفس التحيزات البشرية الموجودة في البيانات المستخدمة لتدريبها. معظم مؤشرات التحيز المنصوص عليها للكشف عن تحي ز Word Embeddings مؤشرات قائمة على أساس مقياس التشابه الجيبلي. في هذه الدراسة، ندرس آثار تدابير التشابه المختلفة وكذلك التقنيات الوصفية الأخرى أكثر من المتوسط ​​في قياس تحيزات تضمين الكلمات السياقية وغير السياقية. نظهر أن حجم التحيزات المكشوفة في Word Embeddings يعتمد على تدابير الإحصاءات الوصفية والتشابه المستخدمة لقياس التحيز. وجدنا أنه خلال الفئات العشرة من اختبارات جمعية تضمين Word، تكشف مسافة Mahalanobis عن أصغر التحيز، وتكشف مسافة Euclidean عن أكبر تحيز في Word Ageddings. بالإضافة إلى ذلك، تكشف النماذج السياقية عن تحيزات أقل حدة من نماذج تضمين الكلمة غير السياقية.
تمثل التمثيلات المتبادلة القدرة على جعل تقنيات NLP المتاحة للغالبية العظمى من اللغات في العالم. ومع ذلك، فإنهم يتطلبون حاليا كوربورا محدبة كبيرة أو الوصول إلى لغات مماثلة من الناحية النموذجية. في هذا العمل، نتعلم هذه العقبات من خلال إزالة إشارات هوية اللغة من المدينات متعددة اللغات. ندرس ثلاث نهج لذلك: (1) إعادة محاذاة مساحات ناقلات اللغات المستهدفة (كل ذلك) إلى لغة مصدر محوري؛ (2) إزالة الوسائل والفروقة الخاصة باللغة، والتي تفرج بشكل أفضل من التمييز بين المدينين كمنتج ثانوي؛ (3) زيادة تشابه الإدخال عبر اللغات عن طريق إزالة الانقباضات المورفولوجية وإعادة ترتيب الجملة. نقيم تقييم XNLI وتقييم MT بدون مرجع عبر 19 لغة متنوعة من الناحية النموذجية. تعرض نتائجنا قيود هذه الأساليب - على عكس تطبيع ناقلات ومحاذاة الفضاء المتجه وتطبيع النصوص لا يحقق مكاسب متسقة عبر اللوافع واللغات. نظرا لآثاره المضافة للنهج، فإن مزيجها يقلل فجوة النقل عبر اللغات بمقدار 8.9 نقطة (M-Bert) و 18.2 نقطة (XLM-R) في المتوسط ​​عبر جميع المهام واللغات.
استخدمت الأبحاث السابقة ميزات لغوية لإظهار أن الترجمات تظهر آثار التداخل اللغوي المصدر وأن الأشجار البلورية بين اللغات يمكن إعادة بناءها من نتائج الترجمات إلى نفس اللغة. أظهرت الأبحاث الحديثة أن مثيلات الترجمة (التداخل اللغوي المصدر) يمكن اكتشافها في مساحات تضمينها، ومقارنة مساحات الأدوات الخاصة ببيانات اللغة الأصلية مع أماكن التضمين الناتجة عن الترجمات إلى نفس اللغة، باستخدام اختلاف بسيط يستند إلى eigenvector من قياس ISOMORPHIMM. حتى الآن، لا يزال هناك سؤال مفتوح ما إذا كان يمكن إجراء تدابير البديلة البديلة البديلة البديلة نتائج أفضل. في هذه الورقة، نحن (ط) استكشاف مسافة Groomov-Hausdorff، (II) تقديم نسخة طيفية جديدة من الطريقة القائمة على eigenvector، و (III) تقييم جميع النهج مقابل قاعدة بيانات نموذجية لغوية واسعة (URIEL). نظرا لأن المسافات اللغوية الناتجة عن نهج التزييف الطيفي لدينا يمكن أن تتكاثر الأشجار الوراثية على قدم المساواة مع العمل السابق دون الحاجة إلى أي معلومات لغوية واضحة وأن النتائج يمكن تمديدها إلى اللغات غير الهندية الأوروبية. أخيرا، نظهر أن الطرق قوية تحت مجموعة متنوعة من ظروف النمذجة.
يتم استخدام نماذج اللغة المحددة على كورسا شاسعة للنص غير منظم باستخدام إطار التعلم الذاتي للإشراف في العديد من فهم اللغة الطبيعية ومهام الجيل. تشير العديد من الدراسات إلى أن الاستحواذ على اللغة في البشر يتبع نمطا بسيطا مهيكيا ومجهدا بهذا الحدس، وتعلم المناهج الدراسية، مما يتيح تدريب النماذج الحسابية في ترتيب مغزى، مثل معالجة العينات السهلة قبل الصعب، وقد عرضت للحد من وقت التدريب المحتمل. لا يزال السؤال ما إذا كان يمكن لمعرفة المناهج الدراسية أن تستفيد من نماذج اللغة. في هذا العمل، نقوم بإجراء تجارب شاملة تنطوي على استراتيجيات مناهج متعددة تختلف معايير التعقيد وجداول التدريب. النتائج التجريبية لتدريب نماذج لغة المحولات على الإنجليزي كوربوس وتقييمها جوهريا وكذلك بعد التقليل من ثمانية مهام من معيار الغراء، تظهر مكاسب تحسن متسقة حول تدريب الفانيليا التقليدي. ومن المثير للاهتمام، في تجاربنا، عند تقييمها على عصر واحد، أفضل نموذج في أعقاب المناهج الدراسية ذات المستوى الثابت على مستوى المستند، تتفوق على نموذج الفانيليا بنسبة 1.7 نقطة (متوسط ​​درجة الغراء) ويستغرق نموذج الفانيليا ضعف العديد من خطوات التدريب للوصول إلى أداء مماثل.
جذبت الكشف التلقائي لمؤشر Myers-Briggs Type (MBTI) من منشورات قصيرة عناية ملحوظة في السنوات القليلة الماضية.أظهرت الدراسات الحديثة أن هذه مهمة صعبة للغاية، خاصة في بيانات تويتر شائعة الاستخدام.من الصعب أيضا الحصول على تسميات MBTI أيضا، حيث تتطلب الشر ح البشري علماء النفس المدربين، والطريقة التلقائية للحصول عليها من خلال استبيانات طويلة من قابلية الاستخدام المشكوك فيها للمهمة.في هذه الورقة، نقدم طريقة لجمع ملصقات MBTI موثوقة عبر أربعة أسئلة مختارة بعناية يمكن تطبيقها على أي نوع من البيانات النصية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا