ترغب بنشر مسار تعليمي؟ اضغط هنا

الجماعة الجماعية وراء التعليق التوضيحي: دراسات الحالة في جمع البيانات القياسية

Crowdsourcing Beyond Annotation: Case Studies in Benchmark Data Collection

301   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يعد Growdsourcing من غير الخبراء أحد أكثر الطرق شيوعا لجمع البيانات والشروح في NLP. على الرغم من أن هذه الأداة الأساسية في NLP، إلا أن استخدام الجماعة الجماعية يسترشد إلى حد كبير بالممارسات المشتركة والخبرة الشخصية للباحثين. يظل تطوير نظرية الاستخدام الجماعي لمشاكل اللغة العملية تحديا مفتوحا. ومع ذلك، هناك العديد من المبادئ والممارسات التي أثبتت فعاليتها في توليد بيانات عالية الجودة ومتنوعة. يعرض هذا البرنامج التعليمي الباحثين NLP إلى هذه الأساليب والمبادئ الجماعية لجمع البيانات هذه من خلال مناقشة مفصلة لمجموعة متنوعة من دراسات الحالة. يركز اختيار دراسات الحالة على الإعدادات الصعبة حيث يطلب من الجمهور أن يكتب النص الأصلي أو أداء العمل غير المقيد نسبيا. من خلال دراسات الحالة هذه، نناقش في عمليات تفصيلية مصممة بعناية لتحقيق البيانات ذات الخصائص المحددة، على سبيل المثال تتطلب الاستدلال المنطقي أو التفكير الأساسي أو فهم المحادثة. تركز كل دراسة حالة على تفاصيل بروتوكول جمع البيانات التابعة للبيانات التي غالبا ما تتلقى اهتماما محدودا في العروض البحثية البحثية، على سبيل المثال في المؤتمرات، ولكنها حاسمة لنجاح البحث.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن ندرس مهمة وضع العلامات السرية أو السمية المحجوبة في المحادثات عبر الإنترنت.أبرز البحث المسبق الصعوبة في إنشاء نماذج اللغة التي تعترف بالسمية الدقيقة مثل الأصغرات.تؤكد تحقيقاتنا بشكل أكبر على صعوبة تحليل هذه الملصقات بشكل موثوق من الفئات الجماعية عبر الجماعة الجماعية.نقدم مجموعة بيانات أولية، وسمية coverttox، والتي تهدف إلى تحديد وتصنيف هذه التعليقات من قالب Rater المكرر.أخيرا، نحن نغلق نموذج Bert Transk-Domain Bert لتصنيف تعليقات هجومية سائبة ومقارنة مع خطوط الأساس الحالية.
التعليق التوضيحي المعرفي العالمي (UCCA) هو مخطط توضيحي دلالي ينظم النصوص في هيكل الوسائد الخشن، مما يوفر تغطية واسعة من الظواهر الدلالية.في الوقت نفسه، لا تزال هناك حاجة إلى علاج محمظ من العديد من الفئات.فئة الإعلان ذات أهمية خاصة، حيث تغطي مجموعة وا سعة من معاني مختلفة بشكل أساسي مثل النفي والسببية والجانب وقياس الحدث.في هذه الورقة، نقدم مخطط التعليق التوضيحي الصقل لفئة AUCCA Adverbial، والتي تبين أن UCCA Adverbials يمكن أن تكون بالفعل في الفئات الفرعية في 7 أنواع الدلالية على الأقل، والقيام بذلك يمكن أن تساعد في توضيح وتكريم تسميات الحبيبات الخشنة على خلاف ذلك.نحن نقدم مجموعة مبدئية من المبادئ التوجيهية التوضيحية، وكذلك تجارب التجريبية التوضيحي مع اتفاق مرتفع بين المشتريات، مما يؤكد صلاحية المخطط.
تحتوي العديد من مجموعات بيانات NLP الجماعية على القطع الأثرية المنهجية التي تم تحديدها فقط بعد اكتمال جمع البيانات. يجب أن يسهل تحديد الهوية السابقة من هذه القضايا إنشاء بيانات تدريبية وتقييم عالية الجودة. نحاول ذلك عن طريق تقييم البروتوكولات التي يع مل فيها اللغويين الخبراء في الحلقة "أثناء جمع البيانات لتحديد هذه المشكلات ومعالجتها عن طريق ضبط تعليمات المهام والحوافز. باستخدام الاستدلال اللغوي الطبيعي كحالة اختبار، قارن ثلاثة بروتوكولات جمع البيانات: (1) بروتوكول أساسي مع عدم وجود تورط لغوي، (2) تدخل لغوي في حلقة مع قيود محدثة بشكل متطور على مهمة الكتابة، و (3) تمديد يضيف التفاعل المباشر بين اللغويين والملائقيين عبر غرفة الدردشة. نجد أن المشاركة اللغوية لا تؤدي إلى زيادة الدقة على مجموعات اختبار خارج المجال مقارنة مع خط الأساس، وإضافة غرفة من الدردشة ليس لها تأثير على البيانات. ومع ذلك، فإن المشاركة اللغوية تؤدي إلى بيانات تقييم أكثر تحديا ودقة أعلى في بعض مجموعات التحدي، مما يدل على فوائد دمج تحليل الخبراء أثناء جمع البيانات.
يمكن أن تلعب الموارد الحسابية مثل سورانيا المشروح الدولى دورا مهما في تمكين المتحدثين لغات الأقليات الأصلية للمشاركة في الحكومة والتعليم ومجالات الحياة العامة في لغتهم العامة.ومع ذلك، فإن العديد من اللغات - بشكل رئيسي أولئك الذين لديهم سكان متكلمون أ صليين صغار ودون تقاليد مكتوبة - ليس لديهم دعما رقميا.عقبة واحدة في إنشاء هذه الموارد هي أنه بالنسبة للعديد من اللغات، سيكون عدد قليل من المتحدثين قادرين على تسجيل النصوص - وهي مهمة تتطلب محو الأمية وبعض التدريب اللغوي - وأن وقت هؤلاء الخبراء عادة ما يكون في ارتفاع الطلب على أعمال تخطيط اللغة.تقوم هذه الورقة بتقييم ما إذا كانت غير مكبرات الصوت المدربة في لغة أصلية يمكن أن تؤدي إشعالا دلاليين باستخدام عروض توضيحي موحدة، مما يسمح بإنشاء مواد حسابية دون إيصال المزيد من الضغط على موارد المجتمع.
تناقش ورقة الاستقصاء / المركبة هذه الطرق لتحسين تغطية الموارد مثل WordNet.RAPP تقدر الارتباطات، RHO، بين إحصائيات كوربوس ومعايير الهاجولية.RHO يحسن مع الكمية (حجم كوربوس) والجودة (التوازن).1M الكلمات تكفي لتقديرات بسيطة (ترددات غير منغرام)، ولكن 100x على الأقل مطلوب لتقديرات جيدة للجمعيات والمواد المدمجة.نظرا مثل هذه التقديرات، فإن تغطية Wordnet رائعة.تم تطوير WordNET في SEMCOR، عينة صغيرة (كلمات 200K) من كوربوس البني.محاولات إكمال الرسم البياني المعرفي (KGC) تعلم الروابط المفقودة من مجموعات فرعية من مجموعات فرعية.لكن تقديرات Rapp للأحجام تشير إلى أنها ستكون أكثر ربحية لجمع المزيد من البيانات من استنتاج المعلومات المفقودة التي ليست موجودة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا