ترغب بنشر مسار تعليمي؟ اضغط هنا

في حين أن العديد من خطوط أنابيب NLP تفترض أن النصوص النظيفة النظيفة، فإن العديد من النصوص التي نواجهها في البرية، بما في ذلك الغالبية العظمى من المستندات القانونية، ليست نظيفة للغاية، حيث يجري العديد منهم وثائق منظم بصريا (VSDS) مثل PDF. تقوم الأدوات المعالجة التقليدية ل VSDS تركز بشكل أساسي على تجزئة الكلمات وتحليل التخطيط الخشن، في حين أن تحليل الهيكل المنطقي المحلقات الدقيقة (مثل تحديد حدود الفقرة وهرميها) من VSDS هي غير متكسدة. تحقيقا لهذه الغاية، اقترحنا صياغة المهمة كتنبؤ بملميات الانتقال "بين شظايا الرسائل النصية التي تعرض الشظايا إلى شجرة، وتطوير نظام لتعلم الماكينات المستندة إلى ميزة يمبرص إشارات مرئية ونصية ودلية. يتم تخصيص نظامنا بسهولة إلى أنواع مختلفة من VSDS وكانت خطوط الأساس بشكل كبير في تحديد الهياكل المختلفة في VSDS. على سبيل المثال، حصل نظامنا على درجة الكشف عن حدود الفقرة 0.953 أفضل بكثير من أداة PDF-To-to-todly ذات درجة كبيرة مع درجة F1 من 0.739.
تركز معالجة اللغة الطبيعية الحالية بقوة على زيادة الدقة.يأتي التقدم بتكلفة نماذج فائقة الثقيلة مع مئات الملايين أو حتى مليارات المعلمات.ومع ذلك، فإن المهام النحوية البسيطة مثل وضع العلامات على جزء من الكلام (POS) أو تحليل التبعية أو التعرف على الكيان المسمى (NER) لا تحتاج إلى أكبر النماذج لتحقيق نتائج مقبولة.تمشيا مع هذا الافتراض، نحاول تقليل حجم النموذج الذي ينفذ بشكل مشترك جميع المهام الثلاثة.نقدم Comboner: أداة خفيفة الوزن، أوامر ذات حجم أصغر من المحولات الحديثة.يعتمد على مدمج الكلمات الفرعية المدربة مسبقا بنية الشبكة العصبية المتكررة.يعمل COMBONER على بيانات اللغة البولندية.يحتوي النموذج على مخرجات لوضع العلامات على نقاط البيع والتحليل التبعية و NER.تحتوي ورقةنا على بعض الأفكار من ضبط النموذج الدقيق والتقارير عن نتائجها الإجمالية.
نحن تصف محلول Nuig لمهمة IWPT 2021 بمهمة التعبير المعزز (ED) معزز بلغات متعددة.بالنسبة لهذه المهمة المشتركة، نقترح وتقييم محلل إد المحلي المستند SEQ2SEQ SEQ2SEQ ومقرها SEQ2SEQ الذي يتنبأ بمجموعة ED-Parse من جملة مدخلات معينة كأسلسلة موضعية موضعية للن موذج النسبي.نموذجنا المقترح هو شبكة عصبية متعددة الاستخدامات تؤدي خمس مهام رئيسية في وقت واحد وهي وضع علامات UPOS، ووضع العلامات UFEAT، والليمون، والتحليل التبعية والحد من التحليل.علاوة على ذلك، نستخدم النموذج اللغوي المتاح في قاعدة بيانات Wals لتحسين قدرة محللنا المحترفين المقترحين على الانتقال عبر اللغات.تشير النتائج إلى أن SEQ2SEQ ED-Parser المقترح لدينا يؤدي على قدم المساواة مع محلل ED-Art-Art على الرغم من وجود علامة أبسط.
نقدم مساهمتنا في المهمة المشتركة IWPT 2021 بشأن التحليل في التبعيات العالمية المعززة. مكون النظام الرئيسي الخاص بنا هو محلل خرطوم من أشجار الشجرة الهجين التي تدمج (أ) تنبؤات تمتد الأشجار الرسوم البيانية المحسنة مع (ب) حواف بياني إضافية غير موجودة في الأشجار الممتدة. نحن أيضا اعتماد استراتيجية Finetuning حيث نركن أولا محيطا عاما لغة على تسلسل البيانات من جميع اللغات المتاحة، ثم، في خطوة ثانية، Finetune على كل لغة فردية بشكل منفصل. بالإضافة إلى ذلك، نطور مجموعة كاملة من الوحدات الكاملة الخاصة بنا ذات الصلة بالمهمة المشتركة، بما في ذلك التكفيق، تجزئة الجملة، والتوسع الرمز المميز متعدد الكلمات، استنادا إلى نماذج XLM-R المدربة مسبقا ولغة ما قبل التدريب على مستوى الشخصية عارضات ازياء. يوصل تقديمنا إلى ELAS في المتوسط ​​الكلي 89.24 في مجموعة الاختبار. تحتل المرتبة الأولى بين جميع الفرق، مع وجود هامش أكثر من 2 إيلاس المطلق عبر التقديم الأفضل الأداء الأفضل، وأفضل درجة في 16 من أصل 17 لغة.
نحدد محلل pregroup الخطي، من خلال تطبيق بعض التعديلات الرئيسية على الحد الأدنى المحيطي المحدد في (PRILLER، 2007).وتشمل هذه التعامل مع الكلمات ككتل منفصلة، وبالتالي احترام دورها النحوي في الجملة.نحن نثبت صحة خوارزميةنا فيما يتعلق بتحليل الجمل في فئة ف رعية من قواعد النحو Pregroup.تم تصميم الخوارزمية خصيصا لتنفيذ سلس في بيثون.يؤدي هذا إلى تسهيل تكامله ضمن وحدة تخصيص Discopy ل QNLP ويزيد بشكل كبير من إمكانية تطبيق قواعد النحو Pregroup لتحليل بيانات نصية حقيقية.
الملخص، نحن نصف محلل اللغة الإنجليزية التي تقوم بها الخلايا العصبية المعقولة بيولوجيا ونقل الأخطات، وتنفيذها من خلال حساب التفاضل والتكامل الجمعية، إطارا حسابيا اقترح مؤخرا للوظيفة المعرفية.نوضح أن هذا الجهاز قادر على تحليل الجمل غير المعقولة بشكل مع قول .1 بينما تنطيب تجاربنا جمل بسيطة إلى اللغة الإنجليزية، تشير نتائجنا إلى أن المحلل يمكن تمديده بعد ما نفذناه، إلى عدة اتجاهات تشمل الكثير من اللغة.على سبيل المثال، نقدم نسخة روسية بسيطة من المحلل، ومناقشة كيفية التعامل مع العودية والضمان والبوليزمي.
تقدم الدراسة طريقة لتوليد مترجم متكامل للغة مصدرية مقترحة تتضمن جميع العمليات الحسابية و المنطقية و الحلقات و بنى التحكم و عمليات التصريح و الإسناد. تتضمن الدراسة عدة مراحل بدءاً من مرحلة بناء محلل المفردات (الماسح) اعتماداً على البنية البرمجية LEX، يلي ذلك مرحلة بناء المحلل القواعدي باستخدام الأداة البرمجية BISON و ذلك من أجل تحديد قواعد اللغة الناظمة لعمل المترجم، بعد ذلك يتم ترجمة المعرب (Parser) باستخدام لغة Turbo C++ و ذلك للحصول على الخرج النهائي. تم اختبار المترجم المقترح على مئة ملف مصدري، و أظهر المترجم قدرة على ترجمة كل الملفات و تحديد مواقع الخطأ و العبارات المسببة للخطأ في كل ملف مصدري.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا