الاعتراف بالكيانات المسماة في استفسارات محرك البحث القصيرة هي مهمة صعبة بسبب معلومات السياق الأضعف مقارنة بالجمل الطويلة.فشلت أنظمة التعرف على الكيان المسماة القياسية (NER) التي يتم تدريبها على الجمل الصحيحة والطويلة بشكل جيد على أداء هذه الاستفسارات بشكل جيد.في هذه الدراسة، نشارك جهودنا نحو إنشاء مجموعة بيانات تنظيفها ومصممة من استفسارات محرك البحث التركية الحقيقية (TR-SEQ) وإدخال ملصق ممت طويل لإرضاء احتياجات محرك البحث.يتم تدريب نظام NER من خلال تطبيق أحدث طريقة التعلم العميقة من أحدث برت إلى البيانات التي تم جمعها وإبلاغ أدائها العالي على استعلامات محرك البحث.علاوة على ذلك، قمنا بمقارنة نتائجنا مع أنظمة NER التركية التي من بين الفن.
Recognizing named entities in short search engine queries is a difficult task due to their weaker contextual information compared to long sentences. Standard named entity recognition (NER) systems that are trained on grammatically correct and long sentences fail to perform well on such queries. In this study, we share our efforts towards creating a cleaned and labeled dataset of real Turkish search engine queries (TR-SEQ) and introduce an extended label set to satisfy the search engine needs. A NER system is trained by applying the state-of-the-art deep learning method BERT to the collected data and its high performance on search engine queries is reported. Moreover, we compare our results with the state-of-the-art Turkish NER systems.
المراجع المستخدمة
https://aclanthology.org/
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات
في الوقت الحاضر، حقق التعرف على الكيان المسمى (NER) نتائج ممتازة على الشركة القياسية.ومع ذلك، فإن المشكلات الكبيرة تنشأ مع الحاجة إلى تطبيق في مجال معين، لأنه يتطلب جدارا الشكل المشروح مع مجموعة علامات NE مكيفة.هذا واضح بشكل خاص في مجال معالجة المستن
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا
حققت أنظمة ربط الكيان (EL) نتائج مثيرة للإعجاب على المعايير القياسية بشكل أساسي بفضل التمثيلات السياقية المقدمة من نماذج اللغة المحددة مسبقا.ومع ذلك، لا تزال هذه الأنظمة تتطلب كميات ضخمة من البيانات - ملايين الأمثلة المسمى - في أفضل حالاتهم، مع أوقات
تم اقتراح التعلم التلوي مؤخرا لتعلم النماذج والخوارزميات التي يمكن أن تعميمها من حفنة من الأمثلة.ومع ذلك، فإن تطبيقات التنبؤ الهيكلية والمهام النصية تشكل تحديات لخوارزميات التعلم التلوي.في هذه الورقة، نحن نطبق اثنين من خوارزميات التعلم التلوي، والشبك