لقد أظهر العمل الحديث أن نماذج اللغة المحظورة غير المؤمنة تعلمت تمثيل مفاهيم تقلص البيانات من تباين اللغة والتي يمكن استخدامها لتحديد بيانات التدريب المستهدف بالمجال. تتوفر تسميات أنواع DataSet في كثير من الأحيان، ومع ذلك لا تزال غير مستكشفة إلى حد كبير في الإعدادات عبر اللغات. نستفيد هذا النوع من البيانات الوصفية باعتباره إشارة إشرافية ضعيفة لتحديد البيانات المستهدف في تحليل التبعية الصفرية. على وجه التحديد، نقوم بتعيين معلومات النوع من Treebank-Level لمستوى الجملة على مستوى الجملة الدقيقة، بهدف تضخيم المعلومات المخزنة ضمنيا في تمثيلات سياقية غير مدفوعة غير المدعومة. نوضح أن هذا النوع قابل للاسترداد من المدينات السياقية متعددة اللغات وأنه يوفر إشارة فعالة لتحديد بيانات التدريب في السيناريوهات عبر اللغات والصفرية. بالنسبة إلى 12 لغة Low-Resource Treebanks، ستة منها اختبار فقط، فإن أساليبنا الخاصة النوعية تفوقها بشكل كبير خطوط الأساس التنافسية وكذلك الأساليب القائمة على التضمين الحديثة لتحديد البيانات. علاوة على ذلك، يوفر اختيار البيانات المستندة إلى النوع من النوعين نتائج جديدة من الفنادق الجديدة لمدة ثلاثة من هذه اللغات المستهدفة.
Recent work has shown that monolingual masked language models learn to represent data-driven notions of language variation which can be used for domain-targeted training data selection. Dataset genre labels are already frequently available, yet remain largely unexplored in cross-lingual setups. We harness this genre metadata as a weak supervision signal for targeted data selection in zero-shot dependency parsing. Specifically, we project treebank-level genre information to the finer-grained sentence level, with the goal to amplify information implicitly stored in unsupervised contextualized representations. We demonstrate that genre is recoverable from multilingual contextual embeddings and that it provides an effective signal for training data selection in cross-lingual, zero-shot scenarios. For 12 low-resource language treebanks, six of which are test-only, our genre-specific methods significantly outperform competitive baselines as well as recent embedding-based methods for data selection. Moreover, genre-based data selection provides new state-of-the-art results for three of these target languages.
References used
https://aclanthology.org/
Manually annotating a treebank is time-consuming and labor-intensive. We conduct delexicalized cross-lingual dependency parsing experiments, where we train the parser on one language and test on our target language. As our test case, we use Xibe, a s
State-of-the-art deep neural networks require large-scale labeled training data that is often expensive to obtain or not available for many tasks. Weak supervision in the form of domain-specific rules has been shown to be useful in such settings to a
Although recent developments in neural architectures and pre-trained representations have greatly increased state-of-the-art model performance on fully-supervised semantic role labeling (SRL), the task remains challenging for languages where supervis
In cross-lingual Abstract Meaning Representation (AMR) parsing, researchers develop models that project sentences from various languages onto their AMRs to capture their essential semantic structures: given a sentence in any language, we aim to captu
Abstract Interpretable rationales for model predictions are crucial in practical applications. We develop neural models that possess an interpretable inference process for dependency parsing. Our models adopt instance-based inference, where dependenc