توضح طبيعة عدم وجود كلمة أو انعكاس كلمة يمكن أن تشير إلى حدود القطاع أو دلالات الكلمة من صعوبة فهم النص الصيني، كما تكثف الطلب على المعرفة الدلالية على مستوى الكلمات لإنجاز هدف وضع العلامات في مهام التجزئة والصينية. ومع ذلك، بالنسبة لمهام تجزئة المجال الصيني والعلامات الصينية غير الخاضعة للرقابة، يعاني النموذج المدرب على المجال المصدر بشكل متكرر من المعرفة الدلالية ذات مستوى الكلمة الناقص بالمجال المستهدف. لمعالجة هذه المشكلة، نقترح نموذجا جديدا يعتمد على تكبير الانتباه لإدخال معرفة كبيرة عبر المجال عبر نظام الترجمة. تتيح النموذج المقترح الانتباه النموذجي إلى رسم المعرفة عبر المجال المشار إليها بواسطة المحاذاة المتبادلة على مستوى الكلمات الضمنية بين المدخلات والترجمة المقابلة لها. بصرف النظر عن النموذج الذي يتطلب الإدخال عبر اللغات، فإننا نؤسس أيضا نموذجا خارج الرف الذي يهرب من الاعتماد على الترجمات عبر اللغات. توضح التجارب أن اقتراحنا يتقدم بدرجة كبيرة نتائج أحدث النتائج من مجزأة الصينية المجال ومهام وضع العلامات.
The nature of no word delimiter or inflection that can indicate segment boundaries or word semantics increases the difficulty of Chinese text understanding, and also intensifies the demand for word-level semantic knowledge to accomplish the tagging goal in Chinese segmenting and labeling tasks. However, for unsupervised Chinese cross-domain segmenting and labeling tasks, the model trained on the source domain frequently suffers from the deficient word-level semantic knowledge of the target domain. To address this issue, we propose a novel paradigm based on attention augmentation to introduce crucial cross-domain knowledge via a translation system. The proposed paradigm enables the model attention to draw cross-domain knowledge indicated by the implicit word-level cross-lingual alignment between the input and its corresponding translation. Aside from the model requiring cross-lingual input, we also establish an off-the-shelf model which eludes the dependency on cross-lingual translations. Experiments demonstrate that our proposal significantly advances the state-of-the-art results of cross-domain Chinese segmenting and labeling tasks.
المراجع المستخدمة
https://aclanthology.org/
تعتبر هذه الورقة مشكلة تكيف المجال غير المدعومة من أجل الترجمة الآلية العصبية (NMT)، حيث نفترض الوصول إلى نص أحادي فقط إما في المصدر أو اللغة المستهدفة في المجال الجديد. نقترح طريقة اختيار البيانات عبر اللغات لاستخراج الجمل داخل المجال في جانب اللغة
البحث في أنظمة الحوار مفتوح المجال التي تسمح بمواضيع مجانية صعبة في مجال معالجة اللغات الطبيعية (NLP). تم تحسين أداء نظام الحوار مؤخرا من خلال الطريقة التي تستخدم المعرفة المتعلقة بالحوار؛ ومع ذلك، فإن أنظمة الحوار غير الإنجليزية تعاني من إعادة إنتاج
تبلغ نماذج الكشف عن اللغة المسيئة للحكومة الأمريكية أداء كبير في Corpus، ولكن أداء الفضل عند تقييم التعليقات المسيئة التي تختلف عن سيناريو التدريب.نظرا لأن الشروح البشرية ينطوي على وقت وجهد كبير، فإن النماذج التي يمكن أن تتكيف مع التعليقات التي تم جم
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا
إن إزالة الكيانات المسماة (NED)، والتي تنطوي على رسم الخرائط النصية للكيانات الهيكلية، تحديا بشكل خاص في المجال الطبي بسبب وجود كيانات نادرة.تقتصر الأساليب الحالية بوجود الموارد الهيكلية الخشونة في قواعد المعرفة الطبية الحيوية وكذلك استخدام مجموعات ا