ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم النشط لاستخراج العلاقات التفاعلية في مقالات الصحف الفرنسية

Active Learning for Interactive Relation Extraction in a French Newspaper's Articles

214   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

استخراج العلاقات هو الترجمة الفرعية لمعالجة Langage الطبيعية التي شهدت العديد من التحسينات في السنوات الأخيرة، مع ظهور البنية المعقدة المدربة مسبقا. يتم اختبار العديد من هذه النهج من هذه النهج من المعايير مع الجمل المسماة التي تحتوي على كيانات الموسومة، وتتطلب التدريب المسبق الهامة والضبط بشكل جيد على البيانات الخاصة بالمهام. ومع ذلك، في سيناريو حقيقي للاستخدام، مثل في شركة صحيفة في الغالب مخصصة لمعلومات المحلية، فإن العلاقات هي من نوع متنوع للغاية، مع عدم وجود بيانات مشروح تقريبا لمثل هذه العلاقات، والعديد من الكيانات تعاني في جملة دون أن تكون ذات صلة. نشكك في استخدام النماذج الإشرفة من أحدث النماذج في هذا السياق، حيث توجد موارد مثل الوقت والحوسبة وقوة الحوسبة والنحاذج البشرية محدودة. للتكيف مع هذه القيود، نقوم بتجربة خط أنابيب استخراج التعلم في التعلم النشط، وتتألف من نموذج خفيف الوزن يستند إلى LSTM ثنائي للكشف عن العلاقات الموجودة، ونموذج أحدث لتصنيف العلاقة. قارن العديد من الخيارات لنماذج التصنيف في هذا السيناريو، من الكلمة الأساسية لتضمين المتوسط، على الرسم البياني للشبكات العصبية وتلك القائمة على برت، وكذلك العديد من استراتيجيات الاستحواذ النشطة للتعلم، من أجل إيجاد نهج الأكثر كفاءة من حيث التكلفة ولكن دقيقة في موقعنا أكبر حالة استخدام شركة صحيفة صحيفة الفرنسية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الترجمة التنبؤية التفاعلية هي عملية تكرارية تعاونية وحيث تنتج مترجمات البشر الترجمات بمساعدة أنظمة الترجمة الآلية (MT) بشكل تفاعلي. توجد تقنيات أخذ العينات المختلفة في التعلم النشط (AL) لتحديث نموذج MT (NMT) العصبي في السيناريو التفاعلي التنبؤ بالتنب ؤ. في هذه الورقة، نستكشف مصطلح مقرها (NEC Count Entity Content (NEC) والجودة (تقدير الجودة (QE) وتقنيات الإشارة (SIM) (SIM)) - والتي تستخدم للعثور على المرشحين المثاليين من البيانات الواردة - للإشراف البشري وتحديث الوزن نموذج MT. نفذنا تجارب مع ثلاث أزواج ولغوية وبيزن. الألمانية-العربية والإسبانية والإنجليزية والهندية الإنجليزية. تنتج تقنية أخذ العينات المقترحة لدينا 1.82 و 0.77 و 0.81 نقطة من نقاط بلو للغة الألمانية والإنجليزية والإسبانية والإنجليزية والإنجليزية والإنجليزية على التوالي وعلى أساس الأساس الأساسي في أخذ العينات العشوائية. كما أنه يحسن الوضع الحالي بمقدار 0.35 و 0.12 نقطة بلو للألمانية والإنجليزية والإسبانية والإنجليزية على التوالي. يحسن جهود التحرير البشري من حيث عدد الكلمات المتغيرة أيضا بنسبة 5 و 4 نقاط للألمانية والإنجليزية والإسبانية والإنجليزية على التوالي ومقارنة مع أحدث من بين الفن.
الحجج عالية الجودة هي جزء أساسي من صنع القرار.توقع جودة الوسيطة تلقائيا هي مهمة معقدة حصلت مؤخرا على الكثير من الاهتمام في تعدين الحجة.ومع ذلك، فإن جهود التوضيحية لهذه المهمة مرتفعة بشكل استثنائي.لذلك، نختبر أساليب التعلم النشطة القائمة على عدم اليقي ن (AL) على مجموعتين بيانات قوامها الشائعة لتقدير ما إذا كان يمكن تمكين التعلم الكفء للعينة.يدل تقييمنا التجريبي الواسع أن وظائف الاستحواذ القائمة على عدم اليقين لا يمكن أن تتجاوز الدقة التي تم التوصل إليها مع الاستحواذ العشوائي على مجموعات البيانات هذه.
تهدف استخراج العلاقات المنخفضة الموارد (LRE) إلى استخراج حقائق العلاقة من كورسا محدودة المسمى عندما تشريح الإنسان نادرة. تعمل الأعمال الموجودة إما استخدام مخطط التدريب الذاتي لتوليد ملصقات زائفة ستتسبب في مشكلة الانجراف التدريجي، أو نظام التعلم التلو ي الاستفادي الذي لا يتطلب التغيلات بشكل صريح. لتخفيف التحيز الاختيار بسبب عدم وجود حلقات ردود الفعل في نماذج التعلم الحالية، قمنا بتطوير طريقة تعليمية لتعزيز التعزيز التدرج لتشجيع بيانات الملصقات الزائفة لتقليد اتجاه نزول التدرج على البيانات المسمى و Bootstrap إمكانية التحسين من خلال التجربة والخطأ. نقترح أيضا إطارا يسمى Gradlre، الذي يتعامل مع سيناريوهات رئيسيين في استخراج علاقة الموارد المنخفضة. إلى جانب السيناريو حيث تكون البيانات غير المسبقة كافية، يتعامل Gradlre الموقف حيث لا تتوفر بيانات غير قابلة للتحقيق، من خلال استغلال طريقة تكبير سياقيا لتوليد البيانات. النتائج التجريبية على مجموعات بيانات عامة تثبت فعالية الخريجين في استخراج العلاقات المنخفضة للموارد عند مقارنة مع الأساس.
في السنوات الأخيرة، أثبتت نماذج اللغة المدربة مسبقا (PLM) مثل بيرت فعالة للغاية في مهام NLP المتنوعة مثل استخراج المعلومات وتحليل المعنويات والرد على الأسئلة.تدربت مع نص المجال العام الضخم، هذه النماذج اللغوية المدربة مسبقا تلتقط معلومات النحوية والد لية والجلطة الغنية في النص.ومع ذلك، نظرا للاختلافات بين نص مجال عام ومحدد (E.G.، Wikipedia مقابل ملاحظات عيادة)، قد لا تكون هذه النماذج مثالية للمهام الخاصة بالمجال (على سبيل المثال، استخراج العلاقات السريرية).علاوة على ذلك، قد يتطلب الأمر معرفة طبية إضافية لفهم النص السريري بشكل صحيح.لحل هذه القضايا، في هذا البحث، نقوم بإجراء فحص شامل للتقنيات المختلفة لإضافة المعرفة الطبية إلى نموذج برت مدرب مسبقا لاستخراج العلاقات السريرية.تتفوق أفضل طرازنا على مجموعة بيانات استخراج الحالة الإكلينيكية من أحدث طراز I2B2 / VA 2010.
تهدف محاذاة الكيان (EA) إلى مطابقة الكيانات المكافئة عبر الرسوم البيانية المعرفة المختلفة (KGS) وهي خطوة أساسية من KG Fusion. الأساليب الرئيسية الحالية - نماذج عصام العصبية - تعتمد على التدريب مع محاذاة البذور، أي مجموعة من أزواج كيان ما قبل الانحياز والتي تعد مكلفة للغاية للتعليق. في هذه الورقة، نركض إطارا للتعليم النشط الجديد (AL) من أجل EA العصبي، تهدف إلى إنشاء محاذاة بذرة مفيدة للغاية للحصول على نماذج EA أكثر فعالية مع تكلفة أقل تعلقا. يعالج إطارنا تحديين رئيسيتين واجههما عند تطبيق Alo EA: (1) كيفية استغلال التبعيات بين الكيانات داخل الإستراتيجية. تفترض معظم الاستراتيجيات أن مثيلات البيانات للعينة مستقلة وتوزيعها بشكل متطابقة. ومع ذلك، ترتبط الكيانات في كجم. لمعالجة هذا التحدي، نقترح استراتيجية أخذ العينات غير اليقين في الهيكل التي يمكن أن تقيس حالة عدم اليقين في كل كيان وتأثيرها على كياناته الجار في كجم. (2) كيفية التعرف على الكيانات التي تظهر في كجم واحد ولكن ليس في كجم آخر (I.E.، البكالوريوس). تحديد البكالوريوس من المرجح أن ينقذ ميزانية التعليق التوضيحي. لمعالجة هذا التحدي، نحن نضع المعرفة البكالوريوس يدفع الانتباه إلى تخفيف تأثير تحيز أخذ العينات. تظهر النتائج التجريبية أن استراتيجيتنا المقترحة يمكن أن تحسن بشكل كبير جودة أخذ العينات بعنادة جيدة عبر مجموعات البيانات المختلفة ونماذج EA ومبلغ البكالوريوس.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا