ترغب بنشر مسار تعليمي؟ اضغط هنا

هل هذا هو حقا سؤال؟الذهاب وراء الأسئلة العفاهية في NLP

Is that really a question? Going beyond factoid questions in NLP

221   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

ركزت البحث في NLP بشكل أساسي على الأسئلة العفوية، بهدف إيجاد طرق سريعة وموثوقة لمطابقة الاستعلام إلى إجابة.ومع ذلك، فإن الخطاب البشري ينطوي على أكثر من ذلك: أنه يحتوي على أسئلة غير قانونية منتشرة لتحقيق أهداف متتالية محددة.في هذه الورقة، نحقق في هذا الجانب السفلي من الجانب من NLP من خلال إدخال مهمة مستهدفة، وخلق كوربوس مناسب للمهمة وتوفير نماذج خط الأساس ذات الطبيعة المتنوعة.مع هذا، نحن قادرون أيضا على توليد رؤى مفيدة في المهمة وفتح الطريق للبحث في المستقبل في هذا الاتجاه.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

شهدت مشكلة تصميم حلول NLP لمشاكل كلمة الرياضيات (MWP) نشاط بحثي مستمر ومكاسب ثابتة في دقة الاختبار. نظرا لأن الحلفل الموجودين يحققون أداء عاليا على مجموعات البيانات القياسية للمستوى الابتدائي الذي يحتوي على مشاكل في الكلمات الحسابية المجهولة الأولى، إلا أن هذه المشكلات غالبا ما يتم حلها في كثير من الأحيان "مع الجزء الأكبر من الاهتمام بالبحث إلى MWPS أكثر تعقيدا. في هذه الورقة، قصرنا انتباهنا إلى اللغة الإنجليزية MWPs تدرس في الصفوف الأربعة والأقل. نحن نقدم دليلا قويا على أن وحدات MWP الحالية تعتمد على الاستدلال الضحلة لتحقيق أداء عال في مجموعات البيانات القياسية. تحقيقا لهذه الغاية، نظهر أن حفلات MWP التي لا تملك الوصول إلى السؤال المطلوب في MWP، لا يزال بإمكانك حل جزء كبير من MWPS. وبالمثل، فإن النماذج التي تعالج mwps كحقيبة من الكلمات يمكن أن تحقق أيضا دقة عالية بشكل مدهش. علاوة على ذلك، نقدم مجموعة بيانات تحدي، Svamp، تم إنشاؤها من خلال تطبيق الاختلافات المختارة بعناية على الأمثلة التي تم أخذ عينات منها من مجموعات البيانات الحالية. إن أفضل الدقة التي تحققت بها النماذج الحديثة أقل بكثير على Svamp، وبالتالي إظهار الكثير لا يزال يتعين القيام به حتى لأبسط MWPS.
Semeval هو المكان الرئيسي في مجتمع NLP لاقتراح التحديات الجديدة والتقييم التجريبي المنهجي لأنظمة NLP.توفر هذه الورقة تحليلا قياسيا منهيا لسيميفال تهدف إلى الأدلة على أنماط المساهمات وراء Semeval.من خلال فهم توزيع أنواع المهام والمقاييس والبنية والمشا ركة والاقتباسات مع مرور الوقت نهدف إلى الإجابة على السؤال حول ما يجري تقييمه من قبل Semeval.
فهم عندما لا يوفر مقتطف النص معلومات سعية بعد هي جزء أساسي من اللغة الطبيعية Utnderstanding. العمل الحديث (Squad 2.0؛ Rajpurkar et al.، 2018) حاولت إحراز بعض التقدم في هذا الاتجاه من خلال إثراء بيانات الفريق الخاصة بمهمة ضمان الجودة الاستخراجية مع أس ئلة لا يمكن إجراؤها. ومع ذلك، كما نعرض، فإن أداء النظام الأعلى المدرب على الفريق 2.0 قطرات إلى حد كبير سيناريوهات خارج المجال، مما يحد من استخدامه في المواقف العملية. من أجل دراسة هذا، نقوم ببناء كوربوس خارج المجال، مع التركيز على الأسئلة البسيطة القائمة على الأحداث والتمييز بين نوعين من الأسئلة الموجودة: أسئلة تنافسية، حيث يتضمن السياق كيان من نفس النوع مثل الإجابة المتوقعة، و أسئلة أبسط وغير تنافسية حيث لا يوجد أي كيان من نفس النوع في السياق. نجد أن النماذج المستندة إلى Squad 2.0 تفشل حتى في حالة الأسئلة الأكثر بساطة. ثم نحلل أوجه التشابه والاختلافات بين ظاهرة IDK في ضمان الجودة الاستخراجية ومهمة الاعتراف بالاتصالات النصية (RTE؛ Dagan et al.، 2013) والتحقيق في المدى الذي يمكن استخدامه الأخير لتحسين الأداء.
حقق استنتاج اللغة الطبيعي (NLI) اهتماما كبيرا في السنوات الأخيرة؛ومع ذلك، ظل وعد تطبيق اختراقات NLI لمهام NLP الأخرى المنفذة غير الموحدة.في هذا العمل، نستخدم الفهم القروض متعدد الخيارات (MCRC) وفحص صحة واقعية لمهام التلخيص النصي (CFCS) للتحقيق في الأ سباب المحتملة لهذا.تظهر النتائج الخاصة بنا أن: (1) الطول الأقصر نسبيا في مجموعات بيانات NLI التقليدية هو التحدي الرئيسي الذي يحظر الاستخدام في تطبيقات المصب (التي تفعل أفضل مع سياقات أطول)؛(2) يمكن معالجة هذا التحدي عن طريق تحويل مجموعات بيانات فهم القراءة الغنية بالموارد إلى مجموعات بيانات NLI أطول؛و (3) تتفوق النماذج المدربة على مجموعات بيانات الفرضية المحولة والأطول الفرضية تلك المدربة باستخدام مجموعات بيانات NLI التقليدية القصيرة في مهام المصب في المقام الأول بسبب الفرق في أطوال الفرضية.
أدت إدخال مذكرات الكلمات المحول المستندة إلى المحولات المدربين مسبقا إلى تحسينات كبيرة في دقة المحللين المستندة إلى الرسم البياني للأطر مثل التبعيات العالمية (UD). ومع ذلك، يختلف الأمر السابق في الأبعاد المختلفة، بما في ذلك اختيارهم لنماذج اللغة المد ربة مسبقا وما إذا كانوا يستخدمون طبقات LSTM. مع تهدف إلى تحرير آثار هذه الخيارات وتحديد بنية بسيطة ولكنها قابلة للتطبيق على نطاق واسع، نقدم خطوات، ومحلل التبعية المستندة إلى الرسم البياني المعياري الجديد. باستخدام خطوات، نقوم بإجراء سلسلة من التحليلات على OD Corpora من مجموعة متنوعة من اللغات. نجد أن اختيار المدينات المدربة مسبقا له كبير تأثير على أداء المحلل وتحديد XLM-R كخيار قوي عبر اللغات في دراستنا. لا توفر إضافة طبقات LSTM أي فوائد عند استخدام Embeddings القائمة على المحولات. قد يؤدي إعداد إعدادات التدريب متعددة المهام إلى إخراج ميزات UD إضافية. أخذ هذه الأفكار معا، نقترح بنية ومحزين بسيطة ولكنها قابلة للتطبيق على نطاق واسع، وتحقيق نتائج جديدة من من من بين الفنون (من حيث LAS) لمدة 10 لغات مختلفة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا