تهدف القراءة المستوية (LR) إلى تصنيف النصوص عن طريق المستويات المعرفية للقراء، وهي أساسية في توفير مواد قراءة مناسبة بشأن قدرات القراءة المختلفة. ومع ذلك، تعتمد معظم أساليب LR الحديثة على توافر موارد تفوق وفيرة، مما يمنع تكيفها مع لغات الموارد المنخفضة مثل الصينية. في عملنا، لمعالجة LR في الصينية، نستكشف كيف تؤدي أساليب نقل اللغة المختلفة على LR الإنجليزية الصينية. على وجه التحديد، نركز على التدريب الخصم وطريقة التدريب المسبق عبر اللغات لنقل المعرفة LR المستفادة من البيانات المشروحة في اللغة الإنجليزية الغنية بالموارد إلى الصينية. للتقييم، نقدم أولا المعيار القائم على العمر لمحاذاة البيانات مع معايير التسوية المختلفة. ثم نوضح تجارب في كل من إعدادات صفرية وإعدادات قليلة. تبين مقارنة هاتين الطريقتين، والتقييمات الكمية والنوعية أن طريقة التدريب المسبق عبر اللغات التي تلتقط بشكل فعال ميزات اللغة الثابتة بين اللغة الإنجليزية والصينية. نجري تحليلا لاقتراح مزيد من التحسن في LR عبر اللغات.
Leveled reading (LR) aims to automatically classify texts by the cognitive levels of readers, which is fundamental in providing appropriate reading materials regarding different reading capabilities. However, most state-of-the-art LR methods rely on the availability of copious annotated resources, which prevents their adaptation to low-resource languages like Chinese. In our work, to tackle LR in Chinese, we explore how different language transfer methods perform on English-Chinese LR. Specifically, we focus on adversarial training and cross-lingual pre-training method to transfer the LR knowledge learned from annotated data in the resource-rich English language to Chinese. For evaluation, we first introduce the age-based standard to align datasets with different leveling standards. Then we conduct experiments in both zero-shot and few-shot settings. Comparing these two methods, quantitative and qualitative evaluations show that the cross-lingual pre-training method effectively captures the language-invariant features between English and Chinese. We conduct analysis to propose further improvement in cross-lingual LR.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نصف التجارب المصممة لتقييم تأثير الميزات المصنوعة من النسيج والعاطفة على الكشف عن الكلام الكراهية: مهمة تصنيف المحتوى النصي في فئات الكلام الكراهية أو غير الكراهية. تجري تجاربنا لمدة ثلاث لغات - اللغة الإنجليزية والسلوفين والهولندية -
نقترح طريقة بسيطة لتوليد سؤال متعدد اللغات والإجابة على أزواج على نطاق واسع من خلال استخدام نموذج عام واحد.يمكن استخدام هذه العينات الاصطناعية لتحسين الأداء الصفر لقطة من نماذج QA متعددة اللغات على اللغات المستهدفة.يتطلب تدريبنا المتعدد المهام المقتر
بالمقارنة مع نماذج أحادية الأجل، تتطلب النماذج عبر اللغات عادة مفردات أكثر تعبيرية لتمثيل جميع اللغات بشكل كاف.نجد أن العديد من اللغات ممثلة تمثيلا ناقصا في نماذج اللغات الصليب الأخيرة بسبب قدرة المفردات المحدودة.تحقيقا لهذه الغاية، نقترح خوارزمية VO
في هذا العمل، نقدم إطارا نظريا للمعلومات يقوم بتصوير نموذج اللغة عبر اللغات قبل تعظيم المعلومات المتبادلة بين النصوص متعددة اللغات متعددة التحبيب.العرض الموحد يساعدنا على فهم الأساليب الموجودة بشكل أفضل لتعلم تمثيلات عبر اللغات.الأهم من ذلك، مستوحاة
تم تطبيق نهج التعلم العميقة الخاضعة للإشراف على مربع الحوار الموجه في المهام وأثبت أنها فعالة لتطبيقات المجال واللغة المحدودة عند توفر عدد كاف من الأمثلة التدريبية. في الممارسة العملية، تعاني هذه الأساليب من عيوب التصميم الذي يحركه المجال ولغات أقل م