نماذج توزيع عالية الجودة يمكن التقاط العلاقات المعجمية والدلالية بين الكلمات.وبالتالي، يقوم الباحثون بتصميم مختلف المهام الجوهرية لاختبار ما إذا كانت هذه العلاقات يتم القبض عليها.ومع ذلك، فإن معظم المهام الجوهرية مصممة للغات الحديثة، وهناك نقص في طرق التقييم للنماذج التوزيعية للشرج التاريخي.في هذه الورقة، أجرينا BAHP: معيارا لتقييم Adgeddings Word باللغة البرتغالية التاريخية، والذي يحتوي على أربعة أنواع من الاختبارات: التشابه، التشابه، والكشف التفويض، والتماسك.درسنا نماذج Word2Vec الناتجة عن اثنين من البرتغالية التاريخية في مجموعات الاختبار الأربعة هذه.توضح النتائج أن مجموعات الاختبار الخاصة بنا قادرة على قياس جودة نماذج مساحة المتجهات ويمكن أن توفر وجهة نظر شاملة لقدرة النموذج على التقاط معلومات النحوية والدلامة.علاوة على ذلك، يمكن بسهولة امتدت منهجية إنشاء مجموعات الاختبار الخاصة بنا إلى لغات تاريخية أخرى.
High quality distributional models can capture lexical and semantic relations between words. Hence, researchers design various intrinsic tasks to test whether such relations are captured. However, most of the intrinsic tasks are designed for modern languages, and there is a lack of evaluation methods for distributional models of historical corpora. In this paper, we conducted BAHP: a benchmark of assessing word embeddings in Historical Portuguese, which contains four types of tests: analogy, similarity, outlier detection, and coherence. We examined word2vec models generated from two historical Portuguese corpora in these four test sets. The results demonstrate that our test sets are capable of measuring the quality of vector space models and can provide a holistic view of the model's ability to capture syntactic and semantic information. Furthermore, the methodology for the creation of our test sets can be easily extended to other historical languages.
المراجع المستخدمة
https://aclanthology.org/
تعد Word Embeddings مكونا أساسيا لأنظمة معالجة اللغة الطبيعية الحديثة، مما يجعل القدرة على تقييمها بدقة مهمة حيوية. نحن تصف ديسكوتس، معيار للتقييم الجوهري للكلمة العربية الجدلية. يغطي ديسكليكس خمسة لهجات عربية مهمة: جزائري، مصري، لبناني، سوري، وتونسي
تقدم هذه الورقة مساهمتنا في المهمة المشتركة الفرعية.ركز عملنا على تقييم مختلف تمثيلات تضمين الكلمة المدربة مسبقا مناسبة للمهمة.لقد استكشفنا مزيدا من مجموعات من المدينات من أجل تحسين النتائج الإجمالية.
تعتمد نماذج فهم اللغة الطبيعية الحديثة على أشرطة الكلمات الفرعية مسبقا، ولكن قد تحتاج التطبيقات إلى سبب الكلمات التي لم تكن أبدا أو نادرا ما ينظر إليها أثناء الاحتجاج.نظير على أن الأمثلة التي تعتمد بشكل نقدي على كلمة ندرة هي أكثر تحديا لنماذج الاستدل
في هذه الدراسة، ندرس تغيير اللغة في Biji الصينية باستخدام مهمة التصنيف: تصنيف النصوص الصينية القديمة حسب الفترات الزمنية. على وجه التحديد، نحن نركز على نوع فريد من نوعه في الأدب الصيني الكلاسيكي: BIJI (حرفيا دفتر الملاحظات "أو الملاحظات الفرشاة")، أي
تتمثل إدارة المصطلح والمصطلان بخطوات حيوية لإعداد كل أخصائي لغة، ولعب دورا مهما للغاية في مرحلة تعليم محترفي الترجمة.يتزايد الاتجاه المتزايد من إدارة الوقت الفعالة والقيود الزمنية المستمرة التي قد نلاحظها في كل قطاع عمل بزيادة ضرورة تجميع المسرد التل