يمكن أن تخفف المعلومات الدقيقة من حدود الكلمات مشكلة الغموض المعجمي لتحسين أداء مهام معالجة اللغة الطبيعية (NLP). وبالتالي، فإن تجزئة الكلمات الصينية (CWS) مهمة أساسية في NLP. نظرا لتطوير نماذج اللغة المدربة مسبقا (PLM)، فإن المعرفة المدربة مسبقا يمكن أن تساعد الأساليب العصبية في حل المشكلات الرئيسية ل CWS في إجراء كبير. حققت الطرق الحالية بالفعل أداء عال في العديد من المعايير (على سبيل المثال، bakeoff-2005). ومع ذلك، فإن الدراسات البارزة الحديثة محدودة من قبل كوربوس المشروح على نطاق صغير. لزيادة تحسين أداء أساليب CWS بناء على ضبط PLMS، نقترح إطار عمل عصبي رواية، LBGCN، الذي يشتمل على شبكة اتصالية قائمة بذاتها في الترميز في ترميز المحولات. النتائج التجريبية على خمسة معايير وأربعة مجموعات بيانات عبر المجال تظهر أن شبكة اتصال الرسوم البيانية المستندة إلى المعجم تستغرق بنجاح معلومات الكلمات المرشحة وتساعد على تحسين الأداء على المعايير (BakeOFF-2005 و CTB6) ومجموعات البيانات عبر المجال (Sighan- 2010). توضح المزيد من التجارب والتحليلات أن إطار عملنا المقترح نماذج المعجم بفعالية لتعزيز قدرة الأطر العصبية الأساسية وتعزز المتانة في سيناريو المجال العابر.
Precise information of word boundary can alleviate the problem of lexical ambiguity to improve the performance of natural language processing (NLP) tasks. Thus, Chinese word segmentation (CWS) is a fundamental task in NLP. Due to the development of pre-trained language models (PLM), pre-trained knowledge can help neural methods solve the main problems of the CWS in significant measure. Existing methods have already achieved high performance on several benchmarks (e.g., Bakeoff-2005). However, recent outstanding studies are limited by the small-scale annotated corpus. To further improve the performance of CWS methods based on fine-tuning the PLMs, we propose a novel neural framework, LBGCN, which incorporates a lexicon-based graph convolutional network into the Transformer encoder. Experimental results on five benchmarks and four cross-domain datasets show the lexicon-based graph convolutional network successfully captures the information of candidate words and helps to improve performance on the benchmarks (Bakeoff-2005 and CTB6) and the cross-domain datasets (SIGHAN-2010). Further experiments and analyses demonstrate that our proposed framework effectively models the lexicon to enhance the ability of basic neural frameworks and strengthens the robustness in the cross-domain scenario.
المراجع المستخدمة
https://aclanthology.org/
العديد من الأعمال الحديثة في إظهار كلمة التحليل المعجمي ثنائي اللغة (BLI) Word Adgetdings كمنتجات في الفضاء Euclidean.على هذا النحو، يتم حلها عادة من خلال العثور على تحول خطي يقوم بخرائط Ageddings إلى مساحة مشتركة.بدلا من ذلك، قد تكون مفهومة Word Age
تهدف مهمة التحقق من الحقائق القائمة على الطاولة إلى التحقق مما إذا كان البيان المحدد مدعوم من الجدول شبه المنظم المحدد. يلعب المنطق الرمزي مع العمليات المنطقية دورا حاسما في هذه المهمة. الأساليب الحالية الاستفادة من البرامج التي تحتوي على معلومات منط
تهدف التعرف على علاقة الخطاب الضمني (IDRR) إلى تحديد العلاقات المنطقية بين جملتين مجاورة في الخطاب.تفشل النماذج الحالية في الاستفادة الكاملة من المعلومات السياقية التي تلعب دورا مهما في تفسير كل جملة محلية.في هذه الورقة، فإننا نقترحنا بالتالي شبكة تت
يعمل العمل الحديث على تصنيف المعنويات على مستوى جانب الجساب شبكات اتصالا بيانيا (GCN) على أشجار التبعية لتعلم التفاعلات بين شروط الارتفاع وكلمات الرأي. في بعض الحالات، لا يمكن الوصول إلى كلمات الرأي المقابلة لمصطلح الجانب داخل القفزتين على أشجار التب
تهدف إلى توليد معجم البذور للاستخدام في مهام اللغة الطبيعية المصب والأساليب غير الخاضعة للرقابة لتحريض المعجم الثنائي اللغة قد حصلت على الكثير من الاهتمام في الأدبيات الأكاديمية مؤخرا. في حين أن الإعدادات المثيرة للاهتمام وغير المدمرة بالكامل غير واق