ترغب بنشر مسار تعليمي؟ اضغط هنا

BAHP: معيار تقييم كلمة Adgeddings باللغة البرتغالية التاريخية

BAHP: Benchmark of Assessing Word Embeddings in Historical Portuguese

181   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نماذج توزيع عالية الجودة يمكن التقاط العلاقات المعجمية والدلالية بين الكلمات.وبالتالي، يقوم الباحثون بتصميم مختلف المهام الجوهرية لاختبار ما إذا كانت هذه العلاقات يتم القبض عليها.ومع ذلك، فإن معظم المهام الجوهرية مصممة للغات الحديثة، وهناك نقص في طرق التقييم للنماذج التوزيعية للشرج التاريخي.في هذه الورقة، أجرينا BAHP: معيارا لتقييم Adgeddings Word باللغة البرتغالية التاريخية، والذي يحتوي على أربعة أنواع من الاختبارات: التشابه، التشابه، والكشف التفويض، والتماسك.درسنا نماذج Word2Vec الناتجة عن اثنين من البرتغالية التاريخية في مجموعات الاختبار الأربعة هذه.توضح النتائج أن مجموعات الاختبار الخاصة بنا قادرة على قياس جودة نماذج مساحة المتجهات ويمكن أن توفر وجهة نظر شاملة لقدرة النموذج على التقاط معلومات النحوية والدلامة.علاوة على ذلك، يمكن بسهولة امتدت منهجية إنشاء مجموعات الاختبار الخاصة بنا إلى لغات تاريخية أخرى.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعد Word Embeddings مكونا أساسيا لأنظمة معالجة اللغة الطبيعية الحديثة، مما يجعل القدرة على تقييمها بدقة مهمة حيوية. نحن تصف ديسكوتس، معيار للتقييم الجوهري للكلمة العربية الجدلية. يغطي ديسكليكس خمسة لهجات عربية مهمة: جزائري، مصري، لبناني، سوري، وتونسي . في جميع هذه الدلج، يوفر ديسكيكلكس ضفافا لستة علاقات نصنية ودلالية، وهي الذكور إلى الإناث، المفرد إلى المزدوج، المفرد إلى الجمع، متنافرا، مقارنة، واثير إلى الماضي. وهكذا تتكون ديسكليك من مجموعة من أزواج الكلمات التي تمثل كل من العلاقات الست في كل من اللهجات الخمسة. لإظهار فائدة Dilex، نستخدمها لتقييم مجموعة من شركات الكلمة العربية الحالية والجديدة التي طورناها. بما يتجاوز تقييم Embeddings Word، يدعم ديسكلكلكس الجهود المبذولة لدمج اللهجات في منهج اللغة العربية. يمكن ترجمته بسهولة إلى العربية الحديثة العربية والإنجليزية، والتي يمكن أن تكون مفيدة لتقييم ترجمة Word. سيكون لدينا المعيار وكود التقييم ونماذج تضمين الكلمة الجديدة متاحة للجمهور.
تقدم هذه الورقة مساهمتنا في المهمة المشتركة الفرعية.ركز عملنا على تقييم مختلف تمثيلات تضمين الكلمة المدربة مسبقا مناسبة للمهمة.لقد استكشفنا مزيدا من مجموعات من المدينات من أجل تحسين النتائج الإجمالية.
تعتمد نماذج فهم اللغة الطبيعية الحديثة على أشرطة الكلمات الفرعية مسبقا، ولكن قد تحتاج التطبيقات إلى سبب الكلمات التي لم تكن أبدا أو نادرا ما ينظر إليها أثناء الاحتجاج.نظير على أن الأمثلة التي تعتمد بشكل نقدي على كلمة ندرة هي أكثر تحديا لنماذج الاستدل ال اللغوية الطبيعية.ثم نستكشف كيف يمكن أن يتعلم نموذج التعريفات، المقدمة في النص الطبيعي، للتغلب على هذا الإعاقة.عادة ما يكون فهم النموذج الخاص بتعريف ضعيفا أكثر أضعف من تضمين كلمة مصممة بشكل جيد، لكنه يستعيد معظم فجوة الأداء من استخدام كلمة غير مدربة تماما.
في هذه الدراسة، ندرس تغيير اللغة في Biji الصينية باستخدام مهمة التصنيف: تصنيف النصوص الصينية القديمة حسب الفترات الزمنية. على وجه التحديد، نحن نركز على نوع فريد من نوعه في الأدب الصيني الكلاسيكي: BIJI (حرفيا دفتر الملاحظات "أو الملاحظات الفرشاة")، أي مجموعة من الحكايات، الاقتباسات، إلخ، أي شيء مؤلفين ينظرون إلى جديرة بالملاحظة، تمتد Biji مئات السنين عبر العديد من السلالات والحفاظ على لغة غير رسمية في شكل مكتوب. لهذه الأسباب، يعتبرون موردا جيدا لتحقيق تغيير اللغة في الصينية (فانغ، 2010). في هذه الورقة، نقوم بإنشاء مجموعة بيانات جديدة من 108 Biji عبر أربع سلالات. بناء على DataSet، نقدم أولا مهمة تصنيف الفترة الزمنية للصينيين. ثم نحقق في طرق تمثيل ميزة مختلفة للتصنيف. تظهر النتائج أن النماذج باستخدام المدينات السياقية تؤدي الأفضل. يؤكد تحليل لأعلى الميزات المختارة من قبل نموذج Word N-Gram (بعد التبييض الأسماء المناسبة) أن هذه الميزات مفيدة وتتوافق مع الملاحظات والافتراضات المقدمة من اللغويين التاريخيين.
تتمثل إدارة المصطلح والمصطلان بخطوات حيوية لإعداد كل أخصائي لغة، ولعب دورا مهما للغاية في مرحلة تعليم محترفي الترجمة.يتزايد الاتجاه المتزايد من إدارة الوقت الفعالة والقيود الزمنية المستمرة التي قد نلاحظها في كل قطاع عمل بزيادة ضرورة تجميع المسرد التل قائي.تعتمد العديد من أنظمة AET ثنائية اللغة أداء جيدا على معالجة البيانات الموازية، ومع ذلك، فإن هذه الشركات الموازية ليست متاحة دائما لمجال معين أو زوج لغة.يعد الوصول إلى المجال الخاص، والوصول ثنائي اللغة إلى المعلومات واسترجاعه بناء على شركة Corpora المقارنة مجالا واعدةا كبيرا من البحث يتطلب تحليلا مفصلا لكلا من مصادر البيانات المتوفرة وتقنيات الاستخراج المحتملة.يركز هذا العمل على استخراج المصطلحات التلقائية الخاصة بالمجال من شركة Corga المقارنة للزوج باللغة الإنجليزية - اللغة الروسية من خلال الاستفادة من تضمين الكلمات العصبية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا