ترغب بنشر مسار تعليمي؟ اضغط هنا

WEC: مشتق من مجموعة بيانات Aquerence Coreence النطاق واسعة النطاق من Wikipedia

WEC: Deriving a Large-scale Cross-document Event Coreference dataset from Wikipedia

280   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

دقة Aqueference Coreference Coreence هي مهمة مؤسسية لتطبيقات NLP التي تنطوي على معالجة النص المتعدد. ومع ذلك، فإن شركة كوربيا الحالية لهذه المهمة نادرة وصغيرة نسبيا، بينما تعلق فقط مجموعات من المستندات المتواضعة فقط من الوثائق التي تنتمي إلى نفس الموضوع. لاستكمال هذه الموارد وتعزيز البحوث المستقبلية، نقدم حفل الحدث في ويكيبيديا (WEC)، وهي منهجية فعالة لجمع مجموعة بيانات واسعة النطاق لحدث الحدث عبر المستندات من ويكيبيديا، حيث لا يتم تقييد روابط Coreference داخل مواضيع محددة مسبقا. نحن نطبق هذه المنهجية على Wikipedia الإنجليزية واستخراج مجموعة بيانات WEC-ENG الواسعة النطاق. وخاصة، طريقة إنشاء DataSet لدينا عام ويمكن تطبيقها مع القليل من الجهود الأخرى لغات ويكيبيديا الأخرى. لضبط نتائج خط الأساس، نقوم بتطوير خوارزمية تتكيف مع مكونات النماذج الحديثة في دقة COMERACARY داخل الوثيقة إلى إعداد المستندات عبر المستندات. النموذج لدينا هو فعال بشكل مناسب وتفوق النتائج التي تم نشرها سابقا من النتائج التي تم نشرها مسبقا للمهمة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية في هذا المجال، على سبيل المثال، تطوير Chatement-Aware Chatbots. كان التحدي الفني الرئيسي واحد هو تكلفة التسجيل يدويا الحوارات مع ملصقات العاطفة المناسبة. في هذه الورقة، نصف مجموعة بيانات فضية واسعة النطاق تتكون من حوارات من 1M المشروح ب 32 عواطف دقيقة، وثمانية نوايا استجابة متعاطفية، والفئة المحايدة. لتحقيق هذا الهدف، قمنا بتطوير خط أنابيب لجنة البيانات الرواية بدءا من بذرة صغيرة من البيانات المشروحة يدويا وتوسيع نطاقها في نهاية المطاف إلى حجم مرض. قمنا بمقارنة جودةها مقابل مجموعة بيانات ذهبية أحدث باستخدام كل من التجارب دون اتصال وطرائق التحقق من الصحة. يمكن استخدام الإجراء الناتج لإنشاء مجموعات بيانات مماثلة في نفس المجال وكذلك في المجالات الأخرى.
تقدم هذه الورقة MediaSum، مجموعة بيانات مقابلة الوسائط على نطاق واسع تتكون من نصوص 463.6 كيلو بايت مع ملخصات إبتياج.لإنشاء هذه البيانات، نجمع مخالفات المقابلة من NPR و CNN وتوظيف نظرة عامة وأوصاف موضوع كملخصات.مقارنة مع الشركة العامة القائمة للحصول ع لى تلخيص الحوار، فإن DataSet لدينا هي أمر من حيث الحجم ويحتوي على محادثات متعددة الأحزاب المعقدة من مجالات متعددة.نقوم بإجراء تحليل إحصائي لإظهار التحيز الموضعي الفريد المعروض في نصوص المقابلات التلفزيونية والإذاعية.نظهر أيضا أن MediaSum يمكن استخدامه في تعلم التعلم لتحسين أداء نموذج على مهام تلخيص حوار أخرى.
وقد وجدت الأعمال الحديثة دليلا على التحيز بين الجنسين في نماذج من الترجمة الآلية ودقة Aquerence باستخدام مجموعات بيانات التشخيص الاصطناعية في الغالب. في حين أن هذه التحيز الكمي في تجربة خاضعة للرقابة، فإنها غالبا ما تفعل ذلك على نطاق صغير وتتكون في م عظمها من الجمل الاصطناعية، خارج التوزيع. في هذا العمل، نجد أنماط نحوية تشير إلى مهام الدورانية النمطية وغير النمطية (مثل الممرضات الإناث مقابل الراقصين الذكور) في كوربورا من ثلاثة مجالات، مما أدى إلى أول مجموعة بيانات BIAS الجنسية على نطاق واسع من 108 ألفا جمل. نحن نتحقق يدويا من جودة Corpus الخاصة بنا واستخدامها لتقييم التحيز بين الجنسين في نماذج تحليل الأسلحة الأساسية المختلفة ونماذج الترجمة الآلية. نجد أن جميع النماذج المختبرة تميل إلى الإفراط في الاعتماد على الصور النمطية الجنسانية عند تقديمها مع المدخلات الطبيعية، والتي قد تكون ضارة بشكل خاص عند نشرها في النظم التجارية. أخيرا، نظيرنا على أن مجموعة بياناتنا تضفي نفسها على نموذج دقة COMEARCASE، ويجد أن يجدد التحيز على مجموعة مشغولة. تتوفر DataSet ونماذجنا علنا ​​في Github.com/slab-nlp/bug. نأمل أن يحفزون البحوث المستقبلية في تقنيات تخفيف تقييم التقييم بين الجنسين في الإعدادات الواقعية.
نماذج اللغة واسعة النطاق مثل GPT-3 هي متعلمين بقلة قليلة، مما يتيح لهم السيطرة عليها عبر مطالبات النص الطبيعي. أبلغ الدراسات الحديثة أن التصنيف المباشر الفوري يزيل الحاجة إلى ضبط الدقيقة ولكن يفتقر إلى إمكانية التوسع للبيانات والاستدلال. تقترح هذه ال ورقة تقنية تكبير بيانات جديدة ترفع نماذج لغة واسعة النطاق لتوليد عينات نصية واقعية من مزيج من العينات الحقيقية. نقترح أيضا استخدام الملصقات الناعمة المتوقعة من النماذج اللغوية، وتقطير المعرفة بفعالية من نماذج اللغة واسعة النطاق وإنشاء اضطرابات نصية في وقت واحد. نقوم بإجراء تجارب تكبير البيانات على مهام التصنيف المتنوعة وإظهار أن طريقتنا تتفوق بشكل كبير على أساليب تكبير النص الحالية. نقوم أيضا بإجراء تجارب في معيارنا المقترح حديثا لإظهار أن تأثير تكبير لا يعزى فقط إلى الحفظ. مزيد من دراسات الاجتثاث والتحليل النوعي توفر المزيد من الأفكار في نهجنا.
دفعت التطورات الحديثة في الترجمة الآلية العصبية (NMT) جودة أنظمة الترجمة الآلية إلى النقطة التي أصبحوا فيها اعتمادها على نطاق واسع لبناء أنظمة تنافسية. ومع ذلك، لا يزال هناك عدد كبير من اللغات التي لم تجنيها بعد فوائد NMT. في هذه الورقة، نقدم أول درا سة حالة واسعة النطاق للتطبيق العملي ل MT في عائلة اللغة التركية من أجل تحقيق مكاسب NMT للغات التركية تحت الموارد عالية الموارد إلى سيناريوهات منخفضة للغاية الموارد. بالإضافة إلى تقديم تحليل واسع النطاق يحدد الاختناقات نحو بناء أنظمة تنافسية لتحسين ندرة البيانات، فإن دراستنا لديها العديد من المساهمات الرئيسية، بما في ذلك، طن موازي كبير يغطي 22 لغة تركية تتكون من مجموعات بيانات عامة مشتركة مع مجموعات بيانات جديدة من ما يقرب من 1.4 مليون جمل موازية، 2) خطوط أساس ثنائية اللغة ل 26 أزواج لغة، III) مجموعات اختبار عالية الجودة الرواية في ثلاثة مجالات ترجمة مختلفة و 4 درجات التقييم البشري. سيتم إصدار جميع النماذج والبرامج النصية والبيانات للجمهور.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا