تهدف إلى توليد معجم البذور للاستخدام في مهام اللغة الطبيعية المصب والأساليب غير الخاضعة للرقابة لتحريض المعجم الثنائي اللغة قد حصلت على الكثير من الاهتمام في الأدبيات الأكاديمية مؤخرا. في حين أن الإعدادات المثيرة للاهتمام وغير المدمرة بالكامل غير واقعية؛ عادة ما تكون كميات صغيرة من البيانات ثنائية اللغة متاحة عادة بسبب وجود كوربوريل متوازي متعدد اللغات بشكل كبير، يمكن أن يخلق اللغويين كميات صغيرة من البيانات الموازية. في هذا العمل، نوضح نهجا فعالا من Bootstrapping لتعريفات المعجم الثنائية الشرفية شبه الإشراف التي تتمتع بنقاط القوة التكميلية لطريقين متباينين لتحقيق المعجم الثنائي اللغة. في حين أن الطرق الإحصائية فعالة للغاية في حث أزواج الترجمة الصحيحة للكلمات التي تحدث في كثير من الأحيان في كوربوس موازية ومساحات تضمين أحادية مونولينغ لديها ميزة تم تدريبها على كميات كبيرة من البيانات، وبالتالي قد تحفز ترجمات دقيقة للكلمات غائبة عن الكائنات الصغيرة. من خلال الجمع بين هذه القوة النسبية وطريقتنا تحقق نتائج أحدث من الفن في 3 من 4 أزواج لغة في مجموعة اختبار VECMAP الصعبة التي تستخدم الحد الأدنى من الكميات من البيانات الموازية ودون الحاجة إلى قاموس الترجمة. نطلق تنفيذنا على www.blind-review.code.
Aimed at generating a seed lexicon for use in downstream natural language tasks and unsupervised methods for bilingual lexicon induction have received much attention in the academic literature recently. While interesting and fully unsupervised settings are unrealistic; small amounts of bilingual data are usually available due to the existence of massively multilingual parallel corpora and or linguists can create small amounts of parallel data. In this work and we demonstrate an effective bootstrapping approach for semi-supervised bilingual lexicon induction that capitalizes upon the complementary strengths of two disparate methods for inducing bilingual lexicons. Whereas statistical methods are highly effective at inducing correct translation pairs for words frequently occurring in a parallel corpus and monolingual embedding spaces have the advantage of having been trained on large amounts of data and and therefore may induce accurate translations for words absent from the small corpus. By combining these relative strengths and our method achieves state-of-the-art results on 3 of 4 language pairs in the challenging VecMap test set using minimal amounts of parallel data and without the need for a translation dictionary. We release our implementation at www.blind-review.code.
References used
https://aclanthology.org/
Much recent work in bilingual lexicon induction (BLI) views word embeddings as vectors in Euclidean space. As such, BLI is typically solved by finding a linear transformation that maps embeddings to a common space. Alternatively, word embeddings may
Toxic comments contain forms of non-acceptable language targeted towards groups or individuals. These types of comments become a serious concern for government organizations, online communities, and social media platforms. Although there are some app
In this study, we proposed a novel Lexicon-based pseudo-labeling method utilizing explainable AI(XAI) approach. Existing approach have a fundamental limitation in their robustness because poor classifier leads to inaccurate soft-labeling, and it lead
Precise information of word boundary can alleviate the problem of lexical ambiguity to improve the performance of natural language processing (NLP) tasks. Thus, Chinese word segmentation (CWS) is a fundamental task in NLP. Due to the development of p
Metaphors are ubiquitous in natural language, and detecting them requires contextual reasoning about whether a semantic incongruence actually exists. Most existing work addresses this problem using pre-trained contextualized models. Despite their suc