ترغب بنشر مسار تعليمي؟ اضغط هنا

عنوان الأخبار تجميع مهمة NLU صعبة

News Headline Grouping as a Challenging NLU Task

90   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

لقد شهد التقدم الأخير في فهم اللغة الطبيعية (NLU) أحدث النماذج تفوق الأداء البشري على العديد من المهام القياسية. قادت هذه النتائج المثيرة للإعجاب المجتمع إلى التقاطية بشأن قيود البيانات، وتكرر التحديات الأكثر دقة. في هذه الورقة، نقدم مهمة تجميع العنوان الرئيسي (HLG) ومجموعة بيانات مقابلة (HLGD) تتكون من 20،056 أزواج من عناوين الأخبار، والتي تم تسمية كل منها بحكم ثنائي فيما إذا كان الزوج ينتمي إلى نفس المجموعة. على HLGD، يحقق المعلقون البشري الأداء العالي حوالي 0.9 F-1، في حين تصل نماذج المحولات الحالية من المحولات الحالية إلى 0.75 F-1، وفتح المسار لمزيد من التحسينات. نقترحنا كذلك نموذج مبادلة عناوين رئيسية رواية غير مدهشة لمهمة تجميع العنوان الرئيسي الذي يحقق في غضون 3 F-1 من أفضل النموذج الإشرافي. أخيرا، نقوم بتحليل نماذج عالية الأداء مع اختبارات الاتساق، وتجد أن النماذج ليست متسقة في تنبؤاتها، وكشف عن حدود النمذجة من الهندسة الحالية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لقد أرسلنا نماذج يونيين الاتجاهين، واحدة للغة الإنجليزية ← اتجاه أيسلندي وغيرها من الأيسلاندية ← اتجاه اللغة الإنجليزية.يعتمد نظام الترجمة الأخبار لدينا على الهندسة المعمارية الكبيرة المحول، ويستفيد من تصفية Corpora والترجمة الخلفي والترجمة الأمامية المطبقة على البيانات المتوازية والأنتجة على حد سواء
يمكن أن تكون أنظمة NLP المستندة إلى التعلم العميق حساسة للرموز غير المرئية ويصعب التعلم مع المدخلات عالية الأبعاد التي تعيق التعلم بشكل خطير.نقدم نهجا من خلال تجميع كلمات الإدخال على أساس التنوع الدلالي الخاص بهم لتبسيط تمثيل لغة الإدخال مع غموض منخف ض.نظرا لأن الكلمات المتنوعة الدلوية موجودة في سياقات مختلفة، فإننا قادرون على استبدال الكلمات مع مجموعاتهم وما زالت تميز معاني الكلمة التي تعتمد على سياقاتها.نقوم بتصميم العديد من الخوارزميات التي تحسب تجمعات متنوعة تستند إلى أخذ العينات العشوائية، مسافات هندسية، وتعظيم انتروبيا، ونثبت ضمانات رسمية للخوارزميات القائمة على الانتروبوي.تظهر النتائج التجريبية أن أساليبنا تعمم طرازات NLP وإظهار الدقة المعززة على وضع علامات نقاط البيع ومهام LM وتحسينات كبيرة على مهام الترجمة الآلية المتوسطة الحجم، ما يصل إلى +6.5 نقطة بلو.يتوفر شفرة المصدر لدينا في https://github.com/abdulrafae/dg.
بالنسبة لأي موقع على شبكة الإنترنت للتجارة الإلكترونية، فهذا مشكلة غير خيالية تبني الإعلانات الدائمة التي تجذب المتسوقين.من الصعب اجتياز شريط الجودة الإبداعي للموقع، خاصة على نطاق واسع.وبالتالي نقترح حل برنامجي لتوليد عناوين إعلانات المنتج باستخدام م حتوى البيع بالتجزئة.نقترح حالة من التطبيقات الفنية لطرق التدرج في سياسة التعلم (RL) على المحولات (Vaswani et al.، 2017) نماذج لغة ملثم مقرها (ديفلين وآخرون، 2019).تقوم طريقةنا بإنشاء العنوان الإعلاني من خلال تكييف مشترك على منتجات متعددة يرغب البائع في الإعلان.نوضح أن أسلوبنا تتفوق على أساليب المحولات الحالية و LSTM + RL في مقاييس تداخل وتدقيق الجودة.نظهر أيضا أن عناويننا النموذجية التي تم إنشاؤها تفوقت عناوين حقوق الإنسان المقدمة من حيث القواعد الناقدية والجودة الإبداعية على النحو المحدد بالتدقيق.
يتم تعريف معالجة اللغة الطبيعية (NLP) بواسطة مهام محددة منفصلة، مع كل الأدبيات الخاصة بها، ومشاركات البيانات القياسية، والتعاريف.في ورقة الموضع هذه، نجادل بأننا لمشكلة معقدة مثل تهديد الديمقراطية من قبل أنظمة الموافقة على الأخبار غير المتنوعة، من الم هم مراعاة هدف أعلى، هدف معياري وآثاره.اقترح الخبراء في الأخلاقيات والعلوم السياسية والدراسات الإعلامية أن أنظمة التوصية الإخبارية يمكن استخدامها لدعم الديمقراطية التداولية.نحن نفكر في دور NLP في أنظمة التوصية مع مراعاة هذا الهدف المحدد وإظهار أن هذه النظرية للديمقراطية تساعد على تحديد المهام والتقنيات NLP التي يمكن أن تدعم هذا الهدف، وما الذي لا يزال العمل يجب القيام به.يؤدي ذلك إلى توصيات لباحثي NLP العاملين في هذه المشكلة المحددة وكذلك الباحثين الذين يعملون على مشاكل متعددة التخصصات المعقدة الأخرى.
تحتوي العديد من مجموعات بيانات NLP الجماعية على القطع الأثرية المنهجية التي تم تحديدها فقط بعد اكتمال جمع البيانات. يجب أن يسهل تحديد الهوية السابقة من هذه القضايا إنشاء بيانات تدريبية وتقييم عالية الجودة. نحاول ذلك عن طريق تقييم البروتوكولات التي يع مل فيها اللغويين الخبراء في الحلقة "أثناء جمع البيانات لتحديد هذه المشكلات ومعالجتها عن طريق ضبط تعليمات المهام والحوافز. باستخدام الاستدلال اللغوي الطبيعي كحالة اختبار، قارن ثلاثة بروتوكولات جمع البيانات: (1) بروتوكول أساسي مع عدم وجود تورط لغوي، (2) تدخل لغوي في حلقة مع قيود محدثة بشكل متطور على مهمة الكتابة، و (3) تمديد يضيف التفاعل المباشر بين اللغويين والملائقيين عبر غرفة الدردشة. نجد أن المشاركة اللغوية لا تؤدي إلى زيادة الدقة على مجموعات اختبار خارج المجال مقارنة مع خط الأساس، وإضافة غرفة من الدردشة ليس لها تأثير على البيانات. ومع ذلك، فإن المشاركة اللغوية تؤدي إلى بيانات تقييم أكثر تحديا ودقة أعلى في بعض مجموعات التحدي، مما يدل على فوائد دمج تحليل الخبراء أثناء جمع البيانات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا