نماذج توزيع عالية الجودة يمكن التقاط العلاقات المعجمية والدلالية بين الكلمات.وبالتالي، يقوم الباحثون بتصميم مختلف المهام الجوهرية لاختبار ما إذا كانت هذه العلاقات يتم القبض عليها.ومع ذلك، فإن معظم المهام الجوهرية مصممة للغات الحديثة، وهناك نقص في طرق
التقييم للنماذج التوزيعية للشرج التاريخي.في هذه الورقة، أجرينا BAHP: معيارا لتقييم Adgeddings Word باللغة البرتغالية التاريخية، والذي يحتوي على أربعة أنواع من الاختبارات: التشابه، التشابه، والكشف التفويض، والتماسك.درسنا نماذج Word2Vec الناتجة عن اثنين من البرتغالية التاريخية في مجموعات الاختبار الأربعة هذه.توضح النتائج أن مجموعات الاختبار الخاصة بنا قادرة على قياس جودة نماذج مساحة المتجهات ويمكن أن توفر وجهة نظر شاملة لقدرة النموذج على التقاط معلومات النحوية والدلامة.علاوة على ذلك، يمكن بسهولة امتدت منهجية إنشاء مجموعات الاختبار الخاصة بنا إلى لغات تاريخية أخرى.
تتمثل إدارة المصطلح والمصطلان بخطوات حيوية لإعداد كل أخصائي لغة، ولعب دورا مهما للغاية في مرحلة تعليم محترفي الترجمة.يتزايد الاتجاه المتزايد من إدارة الوقت الفعالة والقيود الزمنية المستمرة التي قد نلاحظها في كل قطاع عمل بزيادة ضرورة تجميع المسرد التل
قائي.تعتمد العديد من أنظمة AET ثنائية اللغة أداء جيدا على معالجة البيانات الموازية، ومع ذلك، فإن هذه الشركات الموازية ليست متاحة دائما لمجال معين أو زوج لغة.يعد الوصول إلى المجال الخاص، والوصول ثنائي اللغة إلى المعلومات واسترجاعه بناء على شركة Corpora المقارنة مجالا واعدةا كبيرا من البحث يتطلب تحليلا مفصلا لكلا من مصادر البيانات المتوفرة وتقنيات الاستخراج المحتملة.يركز هذا العمل على استخراج المصطلحات التلقائية الخاصة بالمجال من شركة Corga المقارنة للزوج باللغة الإنجليزية - اللغة الروسية من خلال الاستفادة من تضمين الكلمات العصبية.
تعتمد نماذج فهم اللغة الطبيعية الحديثة على أشرطة الكلمات الفرعية مسبقا، ولكن قد تحتاج التطبيقات إلى سبب الكلمات التي لم تكن أبدا أو نادرا ما ينظر إليها أثناء الاحتجاج.نظير على أن الأمثلة التي تعتمد بشكل نقدي على كلمة ندرة هي أكثر تحديا لنماذج الاستدل
ال اللغوية الطبيعية.ثم نستكشف كيف يمكن أن يتعلم نموذج التعريفات، المقدمة في النص الطبيعي، للتغلب على هذا الإعاقة.عادة ما يكون فهم النموذج الخاص بتعريف ضعيفا أكثر أضعف من تضمين كلمة مصممة بشكل جيد، لكنه يستعيد معظم فجوة الأداء من استخدام كلمة غير مدربة تماما.
نقدم نهجا جديدا لتجانس وتحسين جودة Adgeddings Word.نحن نعتبر طريقة لتدبير تضمين كلمة تم تدريبها على نفس الكملات ولكن مع تهيئة مختلفة.نقوم بتعريف جميع النماذج إلى مساحة متجهية مشتركة باستخدام تطبيق فعال لإجراءات تحليل Scristes (GPA) المعمم (GPA)، تستخ
دم سابقا في ترجمة Word متعددة اللغات.يوضح تمثيل الكلمات لدينا تحسينات متسقة على النماذج الأولية وكذلك متوسطها التبسيط، على مجموعة من المهام.نظرا لأن التمثيلات الجديدة أكثر استقرارا وموثوقة، فهناك تحسن ملحوظ في تقييمات كلمة نادرة.
نقدم Query2Prod2VEC، وهو نموذج يسبب تمثيلات معجمية للبحث عن المنتج في تضمين المنتج: في نموذجنا، يعني المعنى رسم خرائط بين الكلمات والمساحة الكامنة من المنتجات في متجر رقمي.نستفيد من جلسات التسوق لتعلم المساحة الأساسية واستخدام التعليقات التوضيحية للت
جارة لبناء التظليلات المعجمية للتقييم: تظهر تجاربنا أن طرازنا أكثر دقة من التقنيات المعروفة من أدب NLP و IR.أخيرا، نشدد على أهمية كفاءة البيانات للبحث عن المنتج خارج عمالقة البيع بالتجزئة، وتسليط الضوء على كيفية تناسب Query2Prod2VEC قيودا عملية التي يواجهها معظم الممارسين.
تصف تصفية البيانات للترجمة الآلية (MT) مهمة تحديد مجموعة فرعية من Corpus المعطى، ربما صاخبة مع الهدف لزيادة أداء نظام MT الذي تم تدريبه على هذه البيانات المحددة. على مر السنين، تم اقتراح العديد من نهج الترشيح المختلفة. ومع ذلك، فإن تعريفات المهام الم
ختلفة وظروف البيانات تجعل من الصعب رسم مقارنة ذات مغزى. في العمل الحالي، نهدف إلى نهج أكثر منهجية للمهمة في متناول اليد. أولا، نقوم بتحليل أداء تحديد اللغة، وهي أداة تستخدم عادة لتصفية البيانات في مجتمع MT وتحديد نقاط الضعف المحددة. بناء على النتائج التي توصلنا إليها، نقترح بعد ذلك العديد من أساليب رواية لتصفية البيانات، استنادا إلى Argeddings Word عبر اللغات. قارنا مناهجنا إلى إحدى الطرق الفائزة من المهمة المشتركة ل WMT 2018 على تصفية Corpus الموازية على ثلاث مهام حقيقية عالية الموارد MT. نجد الطريقة المذكورة المذكورة، والتي كانت تؤدي قوية للغاية في المهمة المشتركة WMT، لا تؤدي بشكل جيد خلال ظروف مهمتنا الأكثر واقعية. بينما نجد أن نهجنا تخرج في الجزء العلوي من المهام الثلاثة، فإن المتغيرات المختلفة تؤدي أفضل مهام مختلفة. تشير تجارب أخرى على المهمة المشتركة لعاملة WMT 2020 للتصفية الشديدة الموازية أن أساليبنا تحقق نتائج مماثلة لأقوى التقديمات لهذه الحملة.
كشفت الدراسات الحديثة عن تهديد أمني لنماذج معالجة اللغة الطبيعية (NLP)، تسمى هجوم الوكيل. يمكن أن تحافظ نماذج الضحايا الحفاظ على أداء تنافسي على عينات نظيفة أثناء التصرف بشكل غير واضح على العينات ذات كلمة مشغلة محددة إدراجها. عادة ما تتحمل أساليب الم
هاجمة السابقة أن المهاجمين لديهم درجة معينة من المعرفة بالبيانات، إما مجموعة البيانات التي يستخدمها المستخدمون أو مجموعات البيانات الوكيل لمهمة مماثلة، لتنفيذ إجراء تسمم البيانات. ومع ذلك، في هذه الورقة، نجد أنه من الممكن اختراق النموذج بطريقة خالية من البيانات عن طريق تعديل ناقلات كلمة واحدة تضمينها، مع عدم التضحية بدقة تقريبا على عينات نظيفة. تظهر النتائج التجريبية على تحليل المعنويات ومهام تصنيف زوج الجملة أن طريقتنا أكثر كفاءة وسيلة كريهة. نأمل أن يرفع هذا العمل الوعي بمثل هذا المخاطر الأمنية الحرجة المخفية في طبقات تضمين نماذج NLP. يتوفر الكود الخاص بنا في https://github.com/lancopku/mbedding-poisioning.
تعد Word Embeddings مكونا أساسيا لأنظمة معالجة اللغة الطبيعية الحديثة، مما يجعل القدرة على تقييمها بدقة مهمة حيوية. نحن تصف ديسكوتس، معيار للتقييم الجوهري للكلمة العربية الجدلية. يغطي ديسكليكس خمسة لهجات عربية مهمة: جزائري، مصري، لبناني، سوري، وتونسي
. في جميع هذه الدلج، يوفر ديسكيكلكس ضفافا لستة علاقات نصنية ودلالية، وهي الذكور إلى الإناث، المفرد إلى المزدوج، المفرد إلى الجمع، متنافرا، مقارنة، واثير إلى الماضي. وهكذا تتكون ديسكليك من مجموعة من أزواج الكلمات التي تمثل كل من العلاقات الست في كل من اللهجات الخمسة. لإظهار فائدة Dilex، نستخدمها لتقييم مجموعة من شركات الكلمة العربية الحالية والجديدة التي طورناها. بما يتجاوز تقييم Embeddings Word، يدعم ديسكلكلكس الجهود المبذولة لدمج اللهجات في منهج اللغة العربية. يمكن ترجمته بسهولة إلى العربية الحديثة العربية والإنجليزية، والتي يمكن أن تكون مفيدة لتقييم ترجمة Word. سيكون لدينا المعيار وكود التقييم ونماذج تضمين الكلمة الجديدة متاحة للجمهور.
نقدم ثلاث طرق تم تطويرها للمهمة المشتركة بشأن السخرية والكشف عن المعنويات باللغة العربية.نقدم خط الأساس الذي يستخدم ميزات شخصية N-Gram.نقترح أيضا طريقتين أكثر تطورا: شبكة عصبية متكررة مع تمثيل مستوى الكلمة وتصنيف الفرقة تعتمد على ميزات Word ومستوى ال
أحرف.لقد اخترنا تقديم نتائج من مصنف الفرقة، لكن لم يكن ناجحا للغاية مقارنة بأفضل النظم: 22/37 بشأن اكتشاف السخرية و 15/22 على اكتشاف المعنويات.لقد بدا أخيرا أن خط الأساس لدينا قد تم تحسينه وتغلب على تلك النتائج.
تحليل السخرية وتحليل المعنويات هي مهام مهمة في فهم اللغة الطبيعية.السخرية هي نوع من التعبير حيث يتم تقليد قطبية المعنويات لعامل التدخل.في هذه الدراسة، استغلنا هذه العلاقة لتعزيز كلتا المهام من خلال اقتراح نهج تعليمي متعدد المهام باستخدام مزيج من الأش
رطة الثابتة والسياقة.حقق نظامنا المقترح أفضل نتيجة في فرعية الكشف عن السخرية.