ترغب بنشر مسار تعليمي؟ اضغط هنا

اعتمدت نهج استخراج المعلومات الحديثة على تدريب النماذج العصبية العميقة. ومع ذلك، يمكن أن تتجاوز هذه النماذج بسهولة الملصقات الصاخبة وتعاني من تدهور الأداء. في حين أنه من المكلف للغاية تصفية الملصقات الصاخبة في موارد تعليمية كبيرة، فإن الدراسات الحديث ة تظهر أن مثل هذه الملصقات تتخذ المزيد من الخطوات التدريبية التي سيتم حفظها وتكون نسيانها بشكل أكثر تواترا من الملصقات النظيفة، وبالتالي يتم تحديدها في التدريب. بدافع من هذه الخصائص، نقترح إطارا بسيطا بانتظام بسيطة لاستخراج المعلومات التركز على الكيان، والذي يتكون من العديد من النماذج العصبية مع هياكل متطابقة ولكن تهيئة معلمة مختلفة. يتم تحسين هذه النماذج بشكل مشترك مع الخسائر الخاصة بالمهمة ويتم تنظيمها لتوليد تنبؤات مماثلة تستند إلى فقدان اتفاقية، تمنع التجديدات الخارجية على الملصقات الصاخبة. تظهر تجارب واسعة على نطاق واسع على نطاق واسع ولكن صاخبة لاستخراج المعلومات، Tacred و Conll03، فعالية إطار عملنا. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.
تتضمن ممارسة شائعة في بناء مجموعات بيانات NLP، خاصة استخدام التعليقات التوضيحية من قبل الجمهور، الحصول على أحكام معلقية متعددة على نفس حالات البيانات، والتي يتم تسويتها بعد ذلك لإنتاج حقائق أو درجة أرضية واحدة، من خلال التصويت الأغلبية، المتوسط، أو ا لحكموبعدفي حين أن هذه النهج قد تكون مناسبة في مهام توضيحية معينة، تطل مثل هذه التجمعات على الطبيعة التي تم إنشاؤها اجتماعيا للتصورات الإنسانية التي تهدف الشروح عن المهام ذاتية نسبيا إلى الاستيلاء عليها.على وجه الخصوص، فإن الخلافات المنهجية بين المحن المعلقين بسبب خلفياتهم الاجتماعية والثقافية والتجارب العاشية غالبا ما يتم توعيتها من خلال هذه التجمعات.في هذه الورقة، نوضح تجريبيا أن تجميع الملصقات قد يعرض تحيزات تمثيلية من وجهات النظر الفردية والمجموعة.بناء على هذا النتيجة، نقترح مجموعة من توصيات لزيادة فائدة وشفافية مجموعات البيانات في حالات استخدام المصب.
نقدم معايير جديدة للكشف عن إعادة صياغة هذه اللغات الست في Corphrase Opusparcus Somprase: الإنجليزية والفنلندية والفرنسية والألمانية والروسية والسويدية.نصل إلى هذه الأساس عن طريق رصيد الرصيد.يتم تحقيق أفضل النتائج في مجموعات فرعية أصغر وأنظف من مجموعا ت التدريب مما لوحظ في البحث السابق.بالإضافة إلى ذلك، ندرس نهجا قائما للترجمة المنافسة للغات مع بيانات تدريبية أكثر محدودة وصاخبة.
تتحمل أنظمة Training NLP عادة إمكانية الوصول إلى البيانات المشروحة التي تحتوي على ملصق بشري واحد لكل مثال. بالنظر إلى وضع علامات غير كاملة من الحنجرة والغموض الملازمين من اللغة، فإننا نفترض أن العلامة الفردية ليست كافية لتعلم مجموعة تفسير اللغة. نستك شف مخططات توزيع توضيحية جديدة، وتعيين ملصقات متعددة لكل مثال لمجموعة فرعية صغيرة من أمثلة التدريب. تقديم أمثلة متعددة التوصيل هذه بتكلفة التعليق عدد أقل من الأمثلة التي تجلب مكاسب واضحة حول مهمة مهمة وكتابة الكيان في اللغة الطبيعية، حتى عندما نتدرب أولا مع بيانات تسمية واحدة ثم ضبط أمثلة ملصقات متعددة. تمديد إطار تكبير بيانات مختلط، نقترح خوارزمية التعلم التي يمكن أن تتعلم من الأمثلة التدريبية مع كمية مختلفة من التوضيحية (مع صفر، واحد، أو ملصقات متعددة). تجمع هذه الخوارزمية بكفاءة مع الإشارات من بيانات التدريب غير المتكافئة وتجلب مكاسب إضافية في ميزانية التوضيحية المنخفضة وإعدادات المجال الصليب. معا، تحقق طريقة لدينا مكاسب ثابتة في مهام اثنين، مما يشير إلى أن التسميات التوزيعية بشكل غير متساو بين أمثلة التدريب يمكن أن تكون مفيدة للعديد من مهام NLP.
جذبت الكشف التلقائي لمؤشر Myers-Briggs Type (MBTI) من منشورات قصيرة عناية ملحوظة في السنوات القليلة الماضية.أظهرت الدراسات الحديثة أن هذه مهمة صعبة للغاية، خاصة في بيانات تويتر شائعة الاستخدام.من الصعب أيضا الحصول على تسميات MBTI أيضا، حيث تتطلب الشر ح البشري علماء النفس المدربين، والطريقة التلقائية للحصول عليها من خلال استبيانات طويلة من قابلية الاستخدام المشكوك فيها للمهمة.في هذه الورقة، نقدم طريقة لجمع ملصقات MBTI موثوقة عبر أربعة أسئلة مختارة بعناية يمكن تطبيقها على أي نوع من البيانات النصية.
جذبت الكشف عن المشاعر من وظائف وسائل التواصل الاجتماعي اهتماما ملحوظا من مجتمع معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة.تختلف طرق الحصول على ملصقات ذهبية لتدريب واختبار أنظمة الكشف عن المشاعر التلقائية بشكل كبير من دراسة واحدة إلى أخرى، وتشكل م سألة موثوقية الملصقات الذهبية وتحصل على نتائج التصنيف.تستكشف هذه الدراسة بشكل منهجي عدة طرق للحصول على ملصقات ذهبية لنموذج EKMAN الخاص ببيانات Twitter وتأثير الاستراتيجية المختارة في نتائج التصنيف اليدوي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا