ترغب بنشر مسار تعليمي؟ اضغط هنا

التخصيب القائم على النقل لمجموعة بيانات كيكة مجرية

Transfer-based Enrichment of a Hungarian Named Entity Dataset

276   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقدم تحديثا كبيرا إلى أول بيانات كيكة مجرية مسماة، The Szeged Ner Corpus.استخدمنا النقل الصفر - النار عبر اللغات لتهيئة تخصيب أنواع الكيان المشروح في الجسر باستخدام ثلاث نماذج NER العصبية: اثنان منها بناء على Corpus English Ontonotes و One استنادا إلى Czech Cority Corpus Corpus Finetuned من نماذج اللغة العصبية متعددة اللغاتوبعدتم دمج إخراج النماذج تلقائيا مع التوضيحية الأصلية NER، وتصحيحها تلقائيا وتوجه المزيد من التوضيح الإضافي، مثل التصفيات اللازمة لأنواع الكيانات المختلفة.نقدم تقييم الأداء الصفر بالرصاص للنماذج التي تستند إلى OnTonotes ونموذج NEM جديد يستند إلى المحولات التي تم تدريبها على الجزء التدريبي من The Final Corpus.نحن نفرج عن كوربوس والنموذج المدربين.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التلخصات القائمة على الجانب المجردة هي مهمة توليد ملخصات مركزة تستند إلى نقاط اهتمام محددة. هذه الملخصات تساعد تحليل فعال للنص، مثل فهم الاستعراضات أو الآراء بسرعة من زوايا مختلفة. ومع ذلك، نظرا للاختلافات الكبيرة في نوع الجوانب لمجالات مختلفة (مثل ا لمشاعر، ميزات المنتج)، تميل تطوير النماذج السابقة إلى أن تكون خاصة بالمجال. في هذه الورقة، نقترح WikiAsp، 1 مجموعة بيانات واسعة النطاق لتلخيص القائم على الجانب متعدد المجالات التي تحاول تحفيز البحث في اتجاه التلخيص المستند إلى جانب النطاق. على وجه التحديد، نبني DataSet باستخدام مقالات Wikipedia من 20 مجالات مختلفة، باستخدام عناوين القسم وحدود كل مقال كوكيل للتعليق على الجانب. نقترح العديد من النماذج الأساسية المباشرة لهذه المهمة وإجراء تجارب على مجموعة البيانات. تسليط الضوء على النتائج التحديات الرئيسية التي تواجهها نماذج التلخيص الموجودة في هذا الإعداد، مثل التعامل مع الضمير المناسب للمصادر المعروضة والشرح المستمر للأحداث الحساسة للوقت.
الاعتراف بالكيانات المسماة في استفسارات محرك البحث القصيرة هي مهمة صعبة بسبب معلومات السياق الأضعف مقارنة بالجمل الطويلة.فشلت أنظمة التعرف على الكيان المسماة القياسية (NER) التي يتم تدريبها على الجمل الصحيحة والطويلة بشكل جيد على أداء هذه الاستفسارات بشكل جيد.في هذه الدراسة، نشارك جهودنا نحو إنشاء مجموعة بيانات تنظيفها ومصممة من استفسارات محرك البحث التركية الحقيقية (TR-SEQ) وإدخال ملصق ممت طويل لإرضاء احتياجات محرك البحث.يتم تدريب نظام NER من خلال تطبيق أحدث طريقة التعلم العميقة من أحدث برت إلى البيانات التي تم جمعها وإبلاغ أدائها العالي على استعلامات محرك البحث.علاوة على ذلك، قمنا بمقارنة نتائجنا مع أنظمة NER التركية التي من بين الفن.
في الوقت الحاضر، حقق التعرف على الكيان المسمى (NER) نتائج ممتازة على الشركة القياسية.ومع ذلك، فإن المشكلات الكبيرة تنشأ مع الحاجة إلى تطبيق في مجال معين، لأنه يتطلب جدارا الشكل المشروح مع مجموعة علامات NE مكيفة.هذا واضح بشكل خاص في مجال معالجة المستن دات التاريخية.يتكون الهدف الرئيسي لهذه الورقة من اقتراح وتقييم العديد من طرق تعلم النقل لزيادة درجة النقر التاريخي التشيكي.ندرس العديد من مصادر المعلومات، ونحن نستخدم شباكين عصبيين للنمذجة والاعتراف.نحن نوظف سورانيا لتقييم أساليب التعلم الخاصة بنا، وهي Czech Named Entity Corpus و Czech Historical Enty Enty Engyity Corpus.نظهر أن تمثيل بيرت بضبط جيد وفقط المصنف البسيط المدرب على اتحاد كورسيا يحقق نتائج ممتازة.
تطبق الغالبية العظمى من الأساليب الحالية لتخصيص التصنيفات في تطبق Adgeddings Word لأنها أثبتت تجميع السياقات (بمعنى واسع) المستخرجة من النصوص التي تكفي إرفاق الكلمات الأيتام بالتصنيف.من ناحية أخرى، وبصرف النظر عن كونها الموارد الكبيرة المعجمية واللال لالية، فإن التصنيفات هي هياكل رسم بيانية.يمكن أن يكون الجمع بين تدمير Word مع هيكل الرسم البياني للتصنيف موضع التنبؤ بالتنبؤ بالعلاقات التصنيفية.في هذه الورقة، نقارن العديد من النهج لإرفاق كلمات جديدة بالتصنيف الموجود القائمة على تمثيلات الرسم البياني مع تلك التي تعتمد على ASTTEXT AGEDDINGS.نختبر جميع الأساليب على مجموعات البيانات الروسية والإنجليزية، ولكن يمكن تطبيقها أيضا على الكلمات واللغات الأخرى.
نظرا لعدد كبير من الكيانات في قواعد المعرفة الطبية الحيوية، فإن جزء بسيط من الكيانات الصغيرة فقط بيانات التدريب المسمى. وهذا يستلزم كيان ربط النماذج التي يمكن أن تصل إلى ربط تذكر الكيانات غير المرئية باستخدام التمثيلات المستفادة للكيانات. يتذكر كل من هما السابقة بشكل مستقل، وتجاهل العلاقات داخل الوثائق وعبر الوثائق بين الكيان. يمكن أن تكون هذه العلاقات مفيدة للغاية لربط الذكور في النص الطبي الطبيعي حيث غالبا ما تذكر القرارات ذات الصلة وجود نموذج عام أو متخصص للغاية. في هذه الورقة، نقدم نموذجا يمكن فيه إلقاء النموذج الذي يمكن فيه اتخاذ قرارات مرتبطة فقط بالربط بالكيان الأساسي المعرفي ولكن أيضا من خلال تجميع تذكر معا عبر التجميع والاشتراك في ربط التوقعات. في تجارب في أكبر مجموعة بيانات بيئية متوفرة للجمهور، نحسن أفضل التنبؤ المستقل للكيان الذي يربط بمقدار 3.0 نقطة من الدقة، ويحسن نموذج الاستدلال القائم على التجميع كيان يربط بمقدار 2.3 نقطة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا