يتم تعريف Sememes على أنها الوحدات الذرية لوصف المعنى الدلالي للمفاهيم.نظرا لصعوبة التعليق يدويا في التسجيل يدويا واستنادا إلى التعليق بين الخبراء، فقد تم اقتراح مهمة تنبؤات النظرة المعجمية.ومع ذلك، فإن الأساليب السابقة تعتمد بشدة على Word أو Arttersdings، وتجاهل المعلومات المحبوسة الدقيقة.في هذه الورقة، نقترح طريقة رواية ما قبل التدريب والتي تم تصميمها لتحسين دمج المعلومات الداخلية للشخصية الصينية.يتم استخدام تمثيل الأحرف الصيني المحسنة Glyph (دول مجلس التعاون الخليجي) لمساعدة تنبؤة النظر.نقوم بتجربة وتقييم النموذج لدينا على HOWNET، وهو قاعدة المعرفة الشمالية الشهيرة.تظهر النتائج التجريبية أن أسلوبنا تتفوق على نماذج المعلومات غير الخارجية الموجودة.
Sememes are defined as the atomic units to describe the semantic meaning of concepts. Due to the difficulty of manually annotating sememes and the inconsistency of annotations between experts, the lexical sememe prediction task has been proposed. However, previous methods heavily rely on word or character embeddings, and ignore the fine-grained information. In this paper, we propose a novel pre-training method which is designed to better incorporate the internal information of Chinese character. The Glyph enhanced Chinese Character representation (GCC) is used to assist sememe prediction. We experiment and evaluate our model on HowNet, which is a famous sememe knowledge base. The experimental results show that our method outperforms existing non-external information models.
المراجع المستخدمة
https://aclanthology.org/
تم استخدام تحلل الطابع الصيني كميزة لتعزيز نماذج الترجمة الآلية (MT)، والجمع بين المتطرفين في طرازات حرف مستوى الكلمة.حققت العمل الحديث في الأيديوجراف أو تضمين مستوى السكتة الدماغية.ومع ذلك، تبقى الأسئلة حول مستويات التحلل المختلفة من تمثيلات الأحرف
يعمل العمل المسبق على جيل البيانات إلى النص، ومهمة تحويل الكلام الرسم البياني (KG) ثلاث مرات إلى نص طبيعي، يركز على مجموعات البيانات القياسية الخاصة بالمجال. ومع ذلك، في هذه الورقة، فإننا ننفذنا اللغة الإنجليزية بأكملها Wikidata KG، ومناقشة التحديات
نظرا للمخاوف المتزايدة لخصوصية البيانات، يجذب تكيف المجال بدون إلغاء تأسيس المصدر المزيد من الاهتمام بالأبحاث، حيث يفترض أن نموذج مصدر مدرب فقط متاحا، في حين تبقى بيانات المصدر المسمى خاصة.للحصول على نتائج التكيف الواعدة، نحتاج إلى إيجاد طرق فعالة لن
أظهرت النماذج المتعددة اللغات المدربة مسبقا فعاليتها في العديد من مهام NLP متعددة اللغات وتمكن من نقل الصفر أو القليل من التحويلات من لغات الموارد العالية إلى الموارد المنخفضة. ومع ذلك، نظرا للاختلافات والتناقضات النموذجية الكبرى بين بعض اللغات، عادة
إن التنبؤ بمستوى تعقيد كلمة أو عبارة تعتبر مهمة صعبة.يتم التعرف عليه حتى كخطوة حاسمة في العديد من تطبيقات NLP، مثل إعادة ترتيب النصوص ومبسط النص.تعامل البحث المبكر المهمة بمثابة مهمة تصنيف ثنائية، حيث توقعت النظم وجود تعقيد كلمة (معقد مقابل غير معقدة