تركز معالجة اللغة الطبيعية الحالية بقوة على زيادة الدقة.يأتي التقدم بتكلفة نماذج فائقة الثقيلة مع مئات الملايين أو حتى مليارات المعلمات.ومع ذلك، فإن المهام النحوية البسيطة مثل وضع العلامات على جزء من الكلام (POS) أو تحليل التبعية أو التعرف على الكيان المسمى (NER) لا تحتاج إلى أكبر النماذج لتحقيق نتائج مقبولة.تمشيا مع هذا الافتراض، نحاول تقليل حجم النموذج الذي ينفذ بشكل مشترك جميع المهام الثلاثة.نقدم Comboner: أداة خفيفة الوزن، أوامر ذات حجم أصغر من المحولات الحديثة.يعتمد على مدمج الكلمات الفرعية المدربة مسبقا بنية الشبكة العصبية المتكررة.يعمل COMBONER على بيانات اللغة البولندية.يحتوي النموذج على مخرجات لوضع العلامات على نقاط البيع والتحليل التبعية و NER.تحتوي ورقةنا على بعض الأفكار من ضبط النموذج الدقيق والتقارير عن نتائجها الإجمالية.
The current natural language processing is strongly focused on raising accuracy. The progress comes at a cost of super-heavy models with hundreds of millions or even billions of parameters. However, simple syntactic tasks such as part-of-speech (POS) tagging, dependency parsing or named entity recognition (NER) do not require the largest models to achieve acceptable results. In line with this assumption we try to minimize the size of the model that jointly performs all three tasks. We introduce ComboNER: a lightweight tool, orders of magnitude smaller than state-of-the-art transformers. It is based on pre-trained subword embeddings and recurrent neural network architecture. ComboNER operates on Polish language data. The model has outputs for POS tagging, dependency parsing and NER. Our paper contains some insights from fine-tuning of the model and reports its overall results.
المراجع المستخدمة
https://aclanthology.org/
تتضمن النهج الحديثة لإملاء مشكلة تصحيح الأخطاء الإملائي نماذج SEQ2SEQ القائمة على المحولات، والتي تتطلب مجموعات تدريبية كبيرة وتعاني من وقت الاستدلال البطيء؛وتسلسل نماذج وضع التسلسل المستندة إلى ترميز المحولات مثل بيرت، والتي تنطوي على مساحة تسمية ال
نحن تصف تقديم DCU-EPFL إلى مهمة مشتركة IWPT 2021: من النص الخام لتعزيز التبعيات العالمية. تتضمن المهمة تحليل الرسوم البيانية UD المحسنة، والتي تعد امتدادا لأشجار التبعية الأساسية المصممة لتكون أكثر تسهيلا نحو تمثيل الهيكل الدلالي. يتم التقييم على 29
إن الانتعاش الدقيق لهيكل الوسائد الواسع من تحليل الاعتماد العالمي (UD) هو أساسي لمهام المصب مثل استخراج الأدوار الدلالية أو تمثيلات الأحداث. تقدم هذه الدراسة على المستحسن، تصنيف التسلسل الهرمي لعلاقات التبعية المستدلة الموجودة داخل تحليل UD. بمثابة د
نحن تصف محلول Nuig لمهمة IWPT 2021 بمهمة التعبير المعزز (ED) معزز بلغات متعددة.بالنسبة لهذه المهمة المشتركة، نقترح وتقييم محلل إد المحلي المستند SEQ2SEQ SEQ2SEQ ومقرها SEQ2SEQ الذي يتنبأ بمجموعة ED-Parse من جملة مدخلات معينة كأسلسلة موضعية موضعية للن
تشمل اللغة البشرية أكثر من مجرد نص؛كما أنه ينقل العواطف من خلال النغمة والإيماءات.نقدم دراسة حالة لثلاث هندسة بسيطة وفعالة قائمة على المحولات لتنبؤ المعنويات والعاطفة في البيانات متعددة الوسائط.يقوم نموذج الانصهار المتأخر بدمج ميزات Unimodal لإنشاء ت