ترغب بنشر مسار تعليمي؟ اضغط هنا

أتصري: التعلم النشط لمحاذاة الكيان العصبي

ActiveEA: Active Learning for Neural Entity Alignment

323   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف محاذاة الكيان (EA) إلى مطابقة الكيانات المكافئة عبر الرسوم البيانية المعرفة المختلفة (KGS) وهي خطوة أساسية من KG Fusion. الأساليب الرئيسية الحالية - نماذج عصام العصبية - تعتمد على التدريب مع محاذاة البذور، أي مجموعة من أزواج كيان ما قبل الانحياز والتي تعد مكلفة للغاية للتعليق. في هذه الورقة، نركض إطارا للتعليم النشط الجديد (AL) من أجل EA العصبي، تهدف إلى إنشاء محاذاة بذرة مفيدة للغاية للحصول على نماذج EA أكثر فعالية مع تكلفة أقل تعلقا. يعالج إطارنا تحديين رئيسيتين واجههما عند تطبيق Alo EA: (1) كيفية استغلال التبعيات بين الكيانات داخل الإستراتيجية. تفترض معظم الاستراتيجيات أن مثيلات البيانات للعينة مستقلة وتوزيعها بشكل متطابقة. ومع ذلك، ترتبط الكيانات في كجم. لمعالجة هذا التحدي، نقترح استراتيجية أخذ العينات غير اليقين في الهيكل التي يمكن أن تقيس حالة عدم اليقين في كل كيان وتأثيرها على كياناته الجار في كجم. (2) كيفية التعرف على الكيانات التي تظهر في كجم واحد ولكن ليس في كجم آخر (I.E.، البكالوريوس). تحديد البكالوريوس من المرجح أن ينقذ ميزانية التعليق التوضيحي. لمعالجة هذا التحدي، نحن نضع المعرفة البكالوريوس يدفع الانتباه إلى تخفيف تأثير تحيز أخذ العينات. تظهر النتائج التجريبية أن استراتيجيتنا المقترحة يمكن أن تحسن بشكل كبير جودة أخذ العينات بعنادة جيدة عبر مجموعات البيانات المختلفة ونماذج EA ومبلغ البكالوريوس.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الترجمة الآلية العصبية (NMT) حساسة لتحويل المجال. في هذه الورقة، نتعامل مع هذه المشكلة في إعداد تعليمي نشط حيث يمكننا أن نقضي ميزانية معينة في ترجمة البيانات داخل المجال، وتصفح تدريجيا نموذج NMT خارج المجال المدرب مسبقا على البيانات المترجمة حديثا. ع ادة ما تختار طرق التعلم النشطة الحالية ل NMT الجمل بناء على درجات عدم اليقين، ولكن هذه الأساليب تتطلب ترجمة مكلفة للجمل الكاملة حتى عندما تكون عبارات واحدة أو اثنين فقط في الجملة مفيدة. لمعالجة هذا القيد، نعيد فحص العمل السابق من حقبة الترجمة الآلية القائمة على العبارة (PBMT) التي حددت جمل كاملة، ولكن العبارات الفردية إلى حد ما. ومع ذلك، في حين أن دمج هذه العبارات في أنظمة PBMT كانت بسيطة نسبيا، إلا أنها أقل تافهة لأنظمة NMT، والتي يجب تدريبها على تسلسل كامل لالتقاط خصائص هيكلية أكبر للجمل الفريدة للمجال الجديد. للتغلب على هذه العقبات، نقترح تحديد كلا الجمل الكاملة والعبارات الفردية من البيانات غير المسبقة في المجال الجديد للتوجيه إلى المترجمين البشريين. في مهمة ترجمة باللغة الألمانية-الإنجليزية، تحقق نهج التعلم النشط لدينا تحسينات متسقة حول أساليب اختيار الجملة القائمة على عدم اليقين، وتحسين ما يصل إلى 1.2 نتيجة بلو على خطوط خطوط التعلم النشطة قوية.
الحجج عالية الجودة هي جزء أساسي من صنع القرار.توقع جودة الوسيطة تلقائيا هي مهمة معقدة حصلت مؤخرا على الكثير من الاهتمام في تعدين الحجة.ومع ذلك، فإن جهود التوضيحية لهذه المهمة مرتفعة بشكل استثنائي.لذلك، نختبر أساليب التعلم النشطة القائمة على عدم اليقي ن (AL) على مجموعتين بيانات قوامها الشائعة لتقدير ما إذا كان يمكن تمكين التعلم الكفء للعينة.يدل تقييمنا التجريبي الواسع أن وظائف الاستحواذ القائمة على عدم اليقين لا يمكن أن تتجاوز الدقة التي تم التوصل إليها مع الاستحواذ العشوائي على مجموعات البيانات هذه.
الترجمة التنبؤية التفاعلية هي عملية تكرارية تعاونية وحيث تنتج مترجمات البشر الترجمات بمساعدة أنظمة الترجمة الآلية (MT) بشكل تفاعلي. توجد تقنيات أخذ العينات المختلفة في التعلم النشط (AL) لتحديث نموذج MT (NMT) العصبي في السيناريو التفاعلي التنبؤ بالتنب ؤ. في هذه الورقة، نستكشف مصطلح مقرها (NEC Count Entity Content (NEC) والجودة (تقدير الجودة (QE) وتقنيات الإشارة (SIM) (SIM)) - والتي تستخدم للعثور على المرشحين المثاليين من البيانات الواردة - للإشراف البشري وتحديث الوزن نموذج MT. نفذنا تجارب مع ثلاث أزواج ولغوية وبيزن. الألمانية-العربية والإسبانية والإنجليزية والهندية الإنجليزية. تنتج تقنية أخذ العينات المقترحة لدينا 1.82 و 0.77 و 0.81 نقطة من نقاط بلو للغة الألمانية والإنجليزية والإسبانية والإنجليزية والإنجليزية والإنجليزية على التوالي وعلى أساس الأساس الأساسي في أخذ العينات العشوائية. كما أنه يحسن الوضع الحالي بمقدار 0.35 و 0.12 نقطة بلو للألمانية والإنجليزية والإسبانية والإنجليزية على التوالي. يحسن جهود التحرير البشري من حيث عدد الكلمات المتغيرة أيضا بنسبة 5 و 4 نقاط للألمانية والإنجليزية والإسبانية والإنجليزية على التوالي ومقارنة مع أحدث من بين الفن.
أظهرت مؤخرا تقنيات محاذاة المستندات بناء على تمثيلات جملة متعددة اللغات في مؤخرا حالة النتائج الفنية.ومع ذلك، تعتمد هذه التقنيات على تقنيات قياس المسافة غير المزعجة، والتي لا يمكن تغريمها بالمهمة في متناول اليد.في هذه الورقة، بدلا من تقنيات قياس المس افة غير المركبات هذه، فإننا نوظف التعلم المتري لاستخلاص قياسات المسافة الخاصة بالمهام.يتم إشراف هذه القياسات، مما يعني أن متري قياس المسافة يتم تدريبه باستخدام مجموعة بيانات متوازية.باستخدام مجموعة بيانات تنتمي إلى اللغة الإنجليزية، سنهالا، والتاميل، والتي تنتمي إلى ثلاث أسر لغوية مختلفة، نظهر أن مقاييس التعلم الخاصة بمهام المهام التي أشرفت على الفعالة تفوقت نظرائهم غير المعروضين، لمحاذاة المستندات.
في حين أن الأداء التنبئي لمحطات التبعية الإحصائية الحديثة يعتمد بشدة على توافر بيانات Treebank المشروح باهظة الثمن، إلا أن جميع التعليقات التعليقات التوضيحية تسهم على قدم المساواة في تدريب المحللين.في هذه الورقة، نحاول تقليل عدد الأمثلة المسماة اللاز مة لتدريب محلل التبعية القوي باستخدام دفعة التعلم النشطة (AL).على وجه الخصوص، يمكننا التحقيق فيما إذا كانت تنفذ التنوع في دفعات العينات، باستخدام عمليات النقاط الحتمية (DPPS)، يمكن أن تتحسن من نظرائها التنوع المرجح.تظهر تجارب المحاكاة على كوربوس الإنجليزي Newswire أن اختيار دفعات متنوعة مع DPPS متفوقة على استراتيجيات الاختيار القوية التي لا تنفذ التنوع الدفاعي، خاصة خلال المراحل الأولية لعملية التعلم.بالإضافة إلى ذلك، فإن استراتيجيتنا الإدراك الخاصة بالتنوع قوية بموجب إعداد ازدواجية كوربوس، حيث تظهر استراتيجيات أخذ العينات اللاإرادية للتنوع تدهورا كبيرا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا