تهدف القراءة المستوية (LR) إلى تصنيف النصوص عن طريق المستويات المعرفية للقراء، وهي أساسية في توفير مواد قراءة مناسبة بشأن قدرات القراءة المختلفة. ومع ذلك، تعتمد معظم أساليب LR الحديثة على توافر موارد تفوق وفيرة، مما يمنع تكيفها مع لغات الموارد المنخفضة مثل الصينية. في عملنا، لمعالجة LR في الصينية، نستكشف كيف تؤدي أساليب نقل اللغة المختلفة على LR الإنجليزية الصينية. على وجه التحديد، نركز على التدريب الخصم وطريقة التدريب المسبق عبر اللغات لنقل المعرفة LR المستفادة من البيانات المشروحة في اللغة الإنجليزية الغنية بالموارد إلى الصينية. للتقييم، نقدم أولا المعيار القائم على العمر لمحاذاة البيانات مع معايير التسوية المختلفة. ثم نوضح تجارب في كل من إعدادات صفرية وإعدادات قليلة. تبين مقارنة هاتين الطريقتين، والتقييمات الكمية والنوعية أن طريقة التدريب المسبق عبر اللغات التي تلتقط بشكل فعال ميزات اللغة الثابتة بين اللغة الإنجليزية والصينية. نجري تحليلا لاقتراح مزيد من التحسن في LR عبر اللغات.
Leveled reading (LR) aims to automatically classify texts by the cognitive levels of readers, which is fundamental in providing appropriate reading materials regarding different reading capabilities. However, most state-of-the-art LR methods rely on the availability of copious annotated resources, which prevents their adaptation to low-resource languages like Chinese. In our work, to tackle LR in Chinese, we explore how different language transfer methods perform on English-Chinese LR. Specifically, we focus on adversarial training and cross-lingual pre-training method to transfer the LR knowledge learned from annotated data in the resource-rich English language to Chinese. For evaluation, we first introduce the age-based standard to align datasets with different leveling standards. Then we conduct experiments in both zero-shot and few-shot settings. Comparing these two methods, quantitative and qualitative evaluations show that the cross-lingual pre-training method effectively captures the language-invariant features between English and Chinese. We conduct analysis to propose further improvement in cross-lingual LR.
References used
https://aclanthology.org/
In this paper, we describe experiments designed to evaluate the impact of stylometric and emotion-based features on hate speech detection: the task of classifying textual content into hate or non-hate speech classes. Our experiments are conducted for
We propose a simple method to generate multilingual question and answer pairs on a large scale through the use of a single generative model. These synthetic samples can be used to improve the zero-shot performance of multilingual QA models on target
Compared to monolingual models, cross-lingual models usually require a more expressive vocabulary to represent all languages adequately. We find that many languages are under-represented in recent cross-lingual language models due to the limited voca
In this work, we present an information-theoretic framework that formulates cross-lingual language model pre-training as maximizing mutual information between multilingual-multi-granularity texts. The unified view helps us to better understand the ex
Supervised deep learning-based approaches have been applied to task-oriented dialog and have proven to be effective for limited domain and language applications when a sufficient number of training examples are available. In practice, these approache