وقد حافظت العلامات الدلالية المتعددة اللغات واللغات الدلالية (SRL) مؤخرا عن الاهتمام المتزايد لأن تقنيات تمثيل النص متعدد اللغات أصبحت أكثر فعالية ومتاحة على نطاق واسع. في حين أن العمل الحديث قد حقق النجاح المتزايد، فإن النتائج على معايير الذهب متعدد
ة اللغات لا تزال غير قابلة للمقارنة بسهولة عبر اللغات، مما يجعل من الصعب فهم حيث نقف. على سبيل المثال، في Conll-2009، تتأثر المقارنات القياسية لمعيار SRL متعدد اللغات، وهي مقارنات لغة إلى لغوية بحقيقة أن كل لغة لها مجموعة بيانات خاصة بها والتي تختلف عن الآخرين في الحجم والمجالات ومجموعات من التسميات والإرشادات التوضيحية. في هذه الورقة، نتعلم هذه المشكلة واقترح United-SRL، معيار جديد لعطلة SRL متعددة اللغات والتبادلة والاعتماد على التبعية. يوفر United-SRL شرحا متوازيا من الخبراء باستخدام مخزون هيكل الوسائد المشترك، مما يسمح بالمقارنات المباشرة عبر اللغات والدراسات المشجعة على النقل عبر اللغات في SRL. نقوم بإصدار United-SRL V1.0 في https://github.com/sapienzanlp/united-srl.
في حين أن Framenet تعتبر على نطاق واسع كمورد غني من الدلالات في معالجة اللغات الطبيعية، فإن النقد الرئيسي يتعلق بعدم وجود تغطية وندرة نسبية لبياناتها المسمدة مقارنة بالموارد المعمارية الأخرى المستخدمة مثل Propbank و Verbnet. تقارير الورقة هذه عن دراس
ة تجريبية لمعالجة هذه الفجوات. نقترح نهج تكبير البيانات، والذي يستخدم التعليق التوضيحي الخاص بالإطار الحالي لإشراف الوحدات المعجمية الأخرى تلقائيا من نفس الإطار الذي يتم الكشف عنه. يحدد نهجنا القائم على القواعد فكرة الوحدة المعجمية الشقيقة ** وإنشاء بيانات معدنية خاصة بالإطار للتدريب. نقدم تجارب على وضع علامات الدور الدلالية الإطارية التي توضح أهمية تكبير البيانات هذا: نحصل على تحسن كبير في النتائج السابقة لتعريف الإطار وتحديد الوسيطة من أجل Framenet، والاستفادة من كل من النص التوضيحية والتعمادي بموجب Framenet. تسليط نتائج نتائجنا على زيادة البيانات بقيمة إنشاء الموارد التلقائي للنماذج المحسنة في تحليل الإطار الدلالي.
ويعتقد أن وضع العلامات الدلالية الدلالية للمحادثة (CSRL) هي خطوة حاسمة نحو فهم الحوار.ومع ذلك، لا يزال يمثل تحديا كبيرا لمحلل CSRL الحالي للتعامل مع المعلومات الهيكلية للمحادثة.في هذه الورقة، نقدم بنية بسيطة وفعالة ل CSRL التي تهدف إلى معالجة هذه الم
شكلة.يعتمد نموذجنا على شبكة الرسم البياني على بنية المحادثة التي تشفصها بشكل صريح لمعلومات مكبر الصوت.نقترح أيضا طريقة تعليمية متعددة المهام لمواصلة تحسين النموذج.تظهر النتائج التجريبية على مجموعات البيانات القياسية أن نموذجنا مع أهداف التدريب المقترحة لدينا تتفوق بشكل كبير على الأساس السابقة.
دفعت نماذج لغة واسعة النطاق مثل إلمو وفيرت أفق ما هو ممكن في وضع العلامات الدلالية (SRL)، وحل مشكلة خارج المفردات وتمكين النظم المناسبة، لكنها قدمت أيضا تحيزات كبيرة وبعد نقيم ثلاثة محللين SRL حول جمل متعدية بسيطة للغاية مع الأفعال عادة ما يرتبط عادة
الموضوعات والكائنات، مثل، ماري بابيسات توم '': محلل حديثة على أساس بيرت، محيط كبير سنا بناء على القفازات، و محلل أكبر سنا من قبل أيام embeddings. عندما تستخدم الوسائط أشكالا في الغالب تستخدم كأسماء شخص، محاذاة توقعات الحس السليم في الرسوم المتحركة، فإن المحلل المحلل القائم على Bert غير متفائل. ومع ذلك، مع التجريدية أو الأسماء العشوائية، تظهر الصورة المعاكسة. نشير إلى هذا كحساس شعور مشترك، وتقديم مجموعة بيانات تحدي لتقييم مدى حساسية المحللين لهذا التحيز. قواعد البيانات الخاصة بنا والتحدي متوفرة هنا: github.com/coastalcph/comte