ترغب بنشر مسار تعليمي؟ اضغط هنا

كيان غرامة الكتابة عن طريق تسمية التسمية

Fine-grained Entity Typing via Label Reasoning

211   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تستند نهج كتابة الكيانات التقليدية إلى نماذج تصنيف مستقلة، مما يجعلها من الصعب التعرف على أنواع الكيان المعتمدة والذات طويل الذيل والحبوب. في هذه الورقة، نجادل بأن التبعيات الخارجية والمترنوية المتطودة ضمنيا بين الملصقات يمكن أن توفر معرفة حاسمة لمعالجة التحديات المذكورة أعلاه. تحقيقا لهذه الغاية، نقترح شبكة تسمية الملصقات (LRN)، والتي الأسباب التسلل تسميات الكيانات الجميلة من خلال اكتشاف واستغلال المعرفة التبعيات الملصقات المتاحة في البيانات. على وجه التحديد، تستخدم LRN شبكة التراجع التلقائي لإجراء منطق استنتاجي ورسم رسمي من السمة الحيوية لإجراء منطق حثي بين الملصقات، والتي يمكن أن تكفذ بشكل فعال، وتعلم وسبب تبعيات التسمية المعقدة في مجموعة تسلسل إلى مجموعة، ونهاية إلى نهاية وبعد تظهر التجارب أن LRN تحقق الأداء الحديثة على معايير كيانات كيانات فائقة الفيرلة القياسية، ويمكن أيضا حل مشكلة تسمية الذيل الطويل بشكل فعال.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يعمل العمل الحالي على كتابة كيان غرامة (FET) عادة النماذج التلقائية على مجموعات البيانات التي تم الحصول عليها باستخدام قواعد المعرفة (KB) كشراف بعيد.ومع ذلك، فإن الاعتماد على KB يعني أنه يمكن إعاقة هذا الإعداد التدريبي من خلال عدم وجود أو عدم انتظام KB.لتخفيف هذا القيد، نقترح إعدادا جديدا لتدريب نماذج FET: FET دون الوصول إلى أي قاعدة معارف.بموجب هذا الإعداد، نقترح إطار من خطوتين لتدريب نماذج FET.في الخطوة الأولى، نقوم تلقائيا بإنشاء بيانات زائفة مع ملصقات ممتعة من مجموعة بيانات كبيرة غير مسبوقة.ثم يتم تدريب نموذج شبكة عصبي بناء على البيانات الزائفة، إما بطريقة غير مخالفة أو استخدام التدريب الذاتي بموجب الإرشادات الضعيفة من نموذج التعرف على الكيان الحبيبة الخشنة (NER).تظهر النتائج التجريبية أن طريقتنا تحقق أداء تنافسي فيما يتعلق بالنماذج المدربة على مجموعات البيانات ذات الإشراف على KB الأصلي.
تحليل المدونات الصغيرة حيث ننشر ما نقوم بتمكيننا من أداء تطبيقات مختلفة مثل تحليل الاتجاه الاجتماعي وتوصية الكيان. لتتبع الاتجاهات الناشئة في مجموعة متنوعة من المجالات، نريد تصنيف المعلومات عن الكيانات الناشئة (على سبيل المثال، الصورة الرمزية 2) في م نشورات المدونات الصغيرة وفقا لأنواعها (على سبيل المثال، فيلم). وبالتالي، فإننا نقدم مهمة جديدة للكتابة كيان تقوم بتعيين نوعا غرامة على كل كيان ناشئ عند إجراء انفجار من المشاركات التي تحتوي على هذا الكيان لأول مرة في المدونات الصغيرة. التحدي هو إجراء الكتابة من منشورات المدونات الصغيرة الصاخبة دون الاعتماد على المعرفة السابقة للكيان المستهدف. لمعالجة هذه المهمة، نبني مجموعات بيانات Twitter واسعة النطاق للغة الإنجليزية واليابانية باستخدام الإشراف البعيد الحساسة للوقت. ثم نقترح نموذج الكتابة العصبي المعياري الذي لا ينفدي فقط الكيان وسياقاته ولكن أيضا معلومات المعتوه في مشاركات متعددة. لكتابة الكيانات الناشئة "الكتاني" تعني لغة البرمجة الناشئة ولعبة الألواح الكلاسيكية)، والسياقات الكلاسيكية صاخبة، ونطير محدد سياق يجد سياقات ذات صلة للكيان الهدف. تؤكد التجارب على مجموعات البيانات Twitter فعالية نموذج الكتابة لدينا ومنح السياق.
غالبا ما يتطلب تدريب نماذج NLP كميات كبيرة من بيانات التدريب المسمى، مما يجعل من الصعب توسيع النماذج الحالية لغات جديدة.في حين تعتمد Transfer-Transfer عبر اللغات الصفرية على تضييق كلمة متعددة اللغات لتطبيق نموذج تدرب على لغة واحدة لآخر، فإن Yarowski و Ngai (2001) يقترح طريقة الإسقاط التوضيحي لتوليد بيانات التدريب دون شرح يدوي.تم استخدام هذه الطريقة بنجاح مهام التعرف على الكيان المسمى وكتابة الكيان الخشن الخشبي، لكننا نظهر أنه من غير متوقع من قبل النقل الصفرية عبر اللغات عند تطبيقها على مهمة مماثلة لكتابة الكيان المحبوس.في دراستنا لطبقتها الجميلة للكتابة من نوع الغش في علم الأطباق الألمانية بالنسبة للألمانية، نظهر أن الإسقاط التوضيحي يضخم ميل النموذج الإنجليزي إلى تسميات المستوى 2 المستويات والضرب عن طريق النقل الصفرية عبر اللغات على ثلاثة مجموعات اختبار رواية.
على الرغم من نجاح أنظمة الحوار العصبي في تحقيق أداء عال في مجلس الإدارة، لا يمكنهم تلبية متطلبات المستخدمين في الممارسة العملية، بسبب ضعف مهارات المنطق. السبب الأساسي هو أن معظم نماذج الحوار العصبي تلتقط فقط المعلومات النحوية والدلية، ولكنها تفشل في نموذج الاتساق المنطقي بين محفوظات الحوار والاستجابة الناتجة. في الآونة الأخيرة، تم اقتراح مهمة حوار جديدة متعددة الدوران، لتسهيل أبحاث التفكير الحوار. ومع ذلك، هذه المهمة صعبة، لأن هناك اختلافات طفيفة فقط بين الاستجابة غير المنطقية وتاريخ الحوار. كيفية حل هذا التحدي فعال لا يزال يستحق الاستكشاف. تقترح هذه الورقة نموذج مقارنة غرامة (FCM) لمعالجة هذه المشكلة. مستوحاة من سلوك الإنسان في فهم القراءة، يقترح تركيز آلية المقارنة على الاختلافات الجميلة في تمثيل كل مرشح استجابة. على وجه التحديد، يتم مقارنة كل تمثيل مرشح بالسجل بأكمله للحصول على تمثيل تناسق التاريخ. علاوة على ذلك، تعتبر إشارات الاتساق بين كل مرشح وتاريخ مكبر الصوت في قيادة نموذج يفضل مرشحا متسقا منطقيا مع منطق تاريخ المتكلم. أخيرا، يتم توظيف تمثيلات الاتساق أعلاه لإخراج قائمة التصنيفات من ردود المرشحين لتفويض الحوار متعدد الدوران. النتائج التجريبية على مجموعة بيانات الحوار العامة تظهر أن طريقتنا تحصل على درجات أعلى تصنيف من النماذج الأساسية.
التعلم الإشرافه يفترض أن ملصق الحقيقة الأرض موجود.ومع ذلك، فإن موثوقية هذه الحقيقة الأرضية تعتمد على المنشآت البشرية، التي لا توافق في كثير من الأحيان.وقد أظهر العمل السابق أن هذا الخلاف يمكن أن يكون مفيدا في نماذج التدريب.نقترح طريقة جديدة لدمج هذا الخلاف كمعلومات: بالإضافة إلى حساب الأخطاء القياسي، نستخدم التسميات الناعمة (أي توزيعات الاحتمالات على الملصقات Annotator) كملقمة مساعدة في شبكة عصبية متعددة المهام.نقيس الاختلاف بين التنبؤات والملصقات الناعمة المستهدفة مع العديد من وظائف الخسائر وتقييم النماذج على مهام NLP المختلفة.نجد أن المهمة الإضافية للتنبؤ بالعلامة الناعمة تقلل من عقوبة الأخطاء بشأن الكيانات الغامضة، وبالتالي تخفف من التجول.يحسن بشكل كبير الأداء عبر المهام، بما يتجاوز النهج القياسي والعمل السابق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا