في هذه الورقة، نقدم نتائج تجاربنا المتعلقة بالأداء الصفر - اللغات اللغات في المحلل الدلالي لحكم Perin إلى الرسم البياني. طبقنا طراز PTG المدربين باستخدام محلل Perin على جريدة 740k-Token Czech إلى الهنغارية. قمنا بتقييم أداء المحلل المحلل باستخدام أداة التقييم الرسمية للمهمة المشتركة MRP 2020. تم إنشاء الشروح الهنغارية القياسية الذهبية عن طريق التصحيح اليدوي لإخراج المحلل في أعقاب دليل الشرح للمستوى Tectogrammatical من TreeBank TreeBank براغ. ومع ذلك، فإن نموذج إنجليزي مدرب على كوربس صحيفة إنجليزية أكبر مليونا متاحا، وجدنا أن النموذج التشيكي أدى بشكل كبير على المدخلات الهنغارية بسبب حقيقة أن الهنغاري يشبه بشكل أكثر تشبه التشيكية من الإنجليزية. لقد وجدنا أن التحويل الصفرية لقطة بمعنى PTG يعنى تمثيل عبر اللغات غير البعيدة النموذجية باستخدام نموذج محلل عصبي يعتمد على نموذج لغة سياسي متعدد اللغات يتبعه تصحيح يدوي من قبل خبراء اللغاتين هو سيناريو قابل للتطبيق.
In this paper, we present the results of our experiments concerning the zero-shot cross-lingual performance of the PERIN sentence-to-graph semantic parser. We applied the PTG model trained using the PERIN parser on a 740k-token Czech newspaper corpus to Hungarian. We evaluated the performance of the parser using the official evaluation tool of the MRP 2020 shared task. The gold standard Hungarian annotation was created by manual correction of the output of the parser following the annotation manual of the tectogrammatical level of the Prague Dependency Treebank. An English model trained on a larger one-million-token English newspaper corpus is also available, however, we found that the Czech model performed significantly better on Hungarian input due to the fact that Hungarian is typologically more similar to Czech than to English. We have found that zero-shot transfer of the PTG meaning representation across typologically not-too-distant languages using a neural parser model based on a multilingual contextual language model followed by a manual correction by linguist experts seems to be a viable scenario.
References used
https://aclanthology.org/
The training of NLP models often requires large amounts of labelled training data, which makes it difficult to expand existing models to new languages. While zero-shot cross-lingual transfer relies on multilingual word embeddings to apply a model tra
We present a system for zero-shot cross-lingual offensive language and hate speech classification. The system was trained on English datasets and tested on a task of detecting hate speech and offensive social media content in a number of languages wi
Multilingual pre-trained models have achieved remarkable performance on cross-lingual transfer learning. Some multilingual models such as mBERT, have been pre-trained on unlabeled corpora, therefore the embeddings of different languages in the models
Pre-trained multilingual language encoders, such as multilingual BERT and XLM-R, show great potential for zero-shot cross-lingual transfer. However, these multilingual encoders do not precisely align words and phrases across languages. Especially, le
Multilingual pre-trained contextual embedding models (Devlin et al., 2019) have achieved impressive performance on zero-shot cross-lingual transfer tasks. Finding the most effective fine-tuning strategy to fine-tune these models on high-resource lang