ترغب بنشر مسار تعليمي؟ اضغط هنا

هل يؤدي وضع لغوي في الحلقة إلى تحسين جمع البيانات NLU؟

Does Putting a Linguist in the Loop Improve NLU Data Collection?

420   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحتوي العديد من مجموعات بيانات NLP الجماعية على القطع الأثرية المنهجية التي تم تحديدها فقط بعد اكتمال جمع البيانات. يجب أن يسهل تحديد الهوية السابقة من هذه القضايا إنشاء بيانات تدريبية وتقييم عالية الجودة. نحاول ذلك عن طريق تقييم البروتوكولات التي يعمل فيها اللغويين الخبراء في الحلقة "أثناء جمع البيانات لتحديد هذه المشكلات ومعالجتها عن طريق ضبط تعليمات المهام والحوافز. باستخدام الاستدلال اللغوي الطبيعي كحالة اختبار، قارن ثلاثة بروتوكولات جمع البيانات: (1) بروتوكول أساسي مع عدم وجود تورط لغوي، (2) تدخل لغوي في حلقة مع قيود محدثة بشكل متطور على مهمة الكتابة، و (3) تمديد يضيف التفاعل المباشر بين اللغويين والملائقيين عبر غرفة الدردشة. نجد أن المشاركة اللغوية لا تؤدي إلى زيادة الدقة على مجموعات اختبار خارج المجال مقارنة مع خط الأساس، وإضافة غرفة من الدردشة ليس لها تأثير على البيانات. ومع ذلك، فإن المشاركة اللغوية تؤدي إلى بيانات تقييم أكثر تحديا ودقة أعلى في بعض مجموعات التحدي، مما يدل على فوائد دمج تحليل الخبراء أثناء جمع البيانات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

كيف يمكننا تصميم أنظمة معالجة اللغة الطبيعية (NLP) التي تتعلم من ردود الفعل البشرية؟هناك هيئة بحثية متزايدة من أطر NLP البشرية (HITL) التي تدمج بشكل مستمر ردود الفعل الإنسانية لتحسين النموذج نفسه.Hitl NLP Research NLP NATCENT ولكن MultiriSious - حل م شاكل NLP المختلفة، وجمع تعليقات متنوعة من أشخاص مختلفين، وتطبيق أساليب مختلفة للتعلم من ردود الفعل الإنسانية.نقدم دراسة استقصا لمجتمعات Hitl NLP من كل من مجتمعات التعلم الآلي (ML) وتفاديا الإنسان (HCI) التي تسلط الضوء على تاريخها القصير الذي يلهم، ويلخص تماما الأطر الأخيرة التي تركز على مهامها وأهدافها والتفاعلات البشرية وتعلم ردود الفعلطرق.أخيرا، نناقش الدراسات المستقبلية لإدماج ردود فعل إنسانية في حلقة تطوير NLP.
تناقش ورقة الاستقصاء / المركبة هذه الطرق لتحسين تغطية الموارد مثل WordNet.RAPP تقدر الارتباطات، RHO، بين إحصائيات كوربوس ومعايير الهاجولية.RHO يحسن مع الكمية (حجم كوربوس) والجودة (التوازن).1M الكلمات تكفي لتقديرات بسيطة (ترددات غير منغرام)، ولكن 100x على الأقل مطلوب لتقديرات جيدة للجمعيات والمواد المدمجة.نظرا مثل هذه التقديرات، فإن تغطية Wordnet رائعة.تم تطوير WordNET في SEMCOR، عينة صغيرة (كلمات 200K) من كوربوس البني.محاولات إكمال الرسم البياني المعرفي (KGC) تعلم الروابط المفقودة من مجموعات فرعية من مجموعات فرعية.لكن تقديرات Rapp للأحجام تشير إلى أنها ستكون أكثر ربحية لجمع المزيد من البيانات من استنتاج المعلومات المفقودة التي ليست موجودة.
نقدم دراسة شاملة للسبوريا المتاحة للحوار متعدد الأحزاب.نقوم بإجراء أكثر من 300 منشور مرتبط بالحوار المتعدد الأحزاب والكتالوج كافة شركة متاحة في التصنيف الجديد.نقوم بتحليل أساليب جمع البيانات لشركة حوار متعددة الأحزاب والحساب وتحديد العديد من المضادات في نهج جمع البيانات الحالية المستخدمة لجمع هذا الحوار.نقدم هذا الاستطلاع، والمسح الأول يركز حصريا على برج الحوار متعدد الأحزاب، لتحفيز البحث في هذا المجال.من خلال مناقشتنا بطرق جمع البيانات الحالية، نحدد Desiderata والمبادئ التوجيهية لمجموعة بيانات متعددة الأحزاب للمساهمة بزيادة تعزيز هذا المجال بحوث الحوار.
يعد Growdsourcing من غير الخبراء أحد أكثر الطرق شيوعا لجمع البيانات والشروح في NLP. على الرغم من أن هذه الأداة الأساسية في NLP، إلا أن استخدام الجماعة الجماعية يسترشد إلى حد كبير بالممارسات المشتركة والخبرة الشخصية للباحثين. يظل تطوير نظرية الاستخدام الجماعي لمشاكل اللغة العملية تحديا مفتوحا. ومع ذلك، هناك العديد من المبادئ والممارسات التي أثبتت فعاليتها في توليد بيانات عالية الجودة ومتنوعة. يعرض هذا البرنامج التعليمي الباحثين NLP إلى هذه الأساليب والمبادئ الجماعية لجمع البيانات هذه من خلال مناقشة مفصلة لمجموعة متنوعة من دراسات الحالة. يركز اختيار دراسات الحالة على الإعدادات الصعبة حيث يطلب من الجمهور أن يكتب النص الأصلي أو أداء العمل غير المقيد نسبيا. من خلال دراسات الحالة هذه، نناقش في عمليات تفصيلية مصممة بعناية لتحقيق البيانات ذات الخصائص المحددة، على سبيل المثال تتطلب الاستدلال المنطقي أو التفكير الأساسي أو فهم المحادثة. تركز كل دراسة حالة على تفاصيل بروتوكول جمع البيانات التابعة للبيانات التي غالبا ما تتلقى اهتماما محدودا في العروض البحثية البحثية، على سبيل المثال في المؤتمرات، ولكنها حاسمة لنجاح البحث.
تم انتقاد التمثيل اللغوي المستمدة من النص وحده بسبب نقص الأساس، أي ربط الكلمات مع معانيها في العالم المادي.عرضت نماذج الرؤية واللغة (VL)، التي تم تدريبها بالاشتراك على نص بيانات النص والصورة أو الفيديو كرددا على مثل هذه الانتقادات.ومع ذلك، في حين أظه رت مؤشر الأفلام VL النجاح على مهام متعددة الوسائط مثل الإجابة على السؤال المرئي، فإنه لم يعرف بعد كيف المقارنة بين التمثيلات اللغوية الداخلية أنفسهم بنظرائهم النصي فقط.تقارن هذه الورقة التمثيلات الدلالية المستفادة عبر VL مقابل النص لا يمكن أن تحذر فقط عن نماذج VL الأخيرة باستخدام مجموعة من التحليلات (التجميع والتحقيق والأداء في مهمة الإجابة على سؤال للبلد) في وضع لغة فقط.نجد أن النماذج متعددة الوسائط تفشل في الظهور بشكل كبير من المتغيرات النصية فقط، مما يشير إلى أن العمل المستقبلي مطلوب إذا تم اتباع الاحتجاج متعدد الوسائط بمثابة متابعته كوسيلة لتحسين NLP بشكل عام.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا