ترغب بنشر مسار تعليمي؟ اضغط هنا

Growdsourcing بيانات اللغة الطبيعية على نطاق الحجم: تعليمي

Crowdsourcing Natural Language Data at Scale: A Hands-On Tutorial

362   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذا البرنامج التعليمي، نقدم جزءا من الخبرة الصناعية الفريدة في التعليق التوضيحي لبيانات اللغة الطبيعية فعالة عبر الجماعة الجماعية المشتركة من قبل كل من الباحثين والمهندسين الرئيسيين من ياندكس.سنقوم بإعطاء مقدمة لوضع علامات البيانات عبر أسواق الجماعة الجماعية العامة وستقدم المكونات الرئيسية لجمع الملصقات الفعالة.سيتبع ذلك جلسة عملية، حيث يتناول المشاركون مهمة إنتاج موارد عالمية حقيقية، تجربة مع تحديد إعدادات عملية وضع العلامات، وإطلاق مشروع مجموعة الملصقات الخاصة بهم على أحد أكبر أسواق الجماعة الجماعية.سيتم تشغيل المشروعات على الحشود الحقيقية داخل جلسة البرنامج التعليمي وسنقدم تقنيات مفيدة لمراقبة الجودة وتزويد الحضور بفرصة لمناقشة أفكارهم التوضيحية الخاصة بهم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

إن ظهور التعلم العميق وتوافر مجموعات البيانات الكبيرة على نطاق واسع قد تسريع البحوث حول توليد اللغة الطبيعية مع التركيز على المهام الأحدث والنماذج الأفضل. مع تقدم سريع هذا، من الضروري تقييم مدى التقدم العلمي المحرز وتحديد المجالات / المكونات التي تحت اج إلى تحسين. لإنجاز ذلك بطريقة تلقائية وموثوقة، اتبع مجتمع NLP بنشاط تطوير مقاييس التقييم التلقائي. خاصة في السنوات القليلة الماضية، كان هناك تركيز متزايد على مقاييس التقييم، مع العديد من الانتقادات للمقاييس والمقترحات الحالية لعدة مقاييس جديدة. يقدم هذا البرنامج التعليمي تطور مقاييس التقييم التلقائي إلى حالتها الحالية إلى جانب الاتجاهات الناشئة في هذا المجال من خلال معالجة الأسئلة التالية على وجه التحديد: (I) ما الذي يجعل تقييم NLG صعبة؟ (2) لماذا نحتاج إلى مقاييس التقييم التلقائي؟ (3) ما هي مقاييس التقييم التلقائية الحالية وكيف يمكن تنظيمها في تصنيف متماسك؟ (4) ما هي الانتقادات وأوجه القصور في المقاييس الموجودة؟ (5) ما هي الاتجاهات المستقبلية المحتملة للبحث؟
تقدم هذه الورقة خط أنابيب التعلم شبه الإشرافه (SSL) على أساس إطار المعلم الطالب، الذي يزداد ملايين الأمثلة غير المستمرة لتحسين مهام فهم اللغة الطبيعية (NLU). نحن نبحث في سؤالين يتعلق باستخدام البيانات غير المسبقة في سياق الإنتاج SSL: 1) كيفية تحديد ع ينات من تجمع بيانات ضخمة غير مسفوقة مفيدة لتدريب SSL، و 2) كيف تؤثر البيانات المحددة على أداء حالة مختلفة من بين تقنيات SSL-Art. نقارن أربعة تقنيات SSL المستخدمة على نطاق واسع، والتسمية الزائفة (PL)، وقطاع المعرفة (KD)، والتدريب الخصم الافتراضي (VAT) والتدريب عبر الرؤية (CVT) جنبا إلى جنب مع طريقتين اختيار البيانات بما في ذلك الاختيار القائم على اللجنة وتحسين الأسفل اختيار مقرها. نحن ندرس مزيدا من فوائد وعيوب هذه التقنيات عند تطبيقها على تصنيف تكاليف النية (IC) ومهام التعرف على الكيان المسماة (NER)، وتوفير المبادئ التوجيهية التي تحدد عندما تكون كل من هذه الطرق مفيدة لتحسين أنظمة NLU كبيرة الحجم.
مراجعة العقود هي إجراء يستغرق وقتا طويلا يتحمل نفقات كبيرة للشركات وعدم المساواة الاجتماعية لأولئك الذين لا يستطيعون تحمل تكاليفها. في هذا العمل، نقترح استنتاج اللغة الطبيعي على مستوى المستند (NLI) للعقود "، وهو جديد، تطبيق عالمي حقيقي من NLI يتناول مثل هذه المشاكل. في هذه المهمة، يتم إعطاء نظام مجموعة من الفرضيات (مثل بعض الالتزامات بالاتفاق قد ينجو من الإنهاء. ") وعقد، ويطلب منها تصنيف ما إذا كانت كل فرضية تنطوي عليها" "، تناقض مع" لم يذكره "(محايد) العقد وكذلك تحديد الأدلة" للقرار على أنه يمتد في العقد. شرحنا وإطلاق سراح أكبر جوربوس حتى الآن يتكون من 607 عقدا مشروحا. نوضح بعد ذلك أن النماذج الحالية تفشل بشكل سيء في مهمتنا وإدخال خط أساس قوي، والتي (أ) تحديد دليل الأدلة كتصنيف متعدد العلامات على المدافع بدلا من محاولة التنبؤ بطارية الرموز البديلة والنهاية، و (ب) توظف تجزئة السياق أكثر تطورا للتعامل مع وثائق طويلة. نوضح أيضا أن الخصائص اللغوية للعقود، مثل النفي من خلال الاستثناءات، تساهم في صعوبة هذه المهمة وأن هناك مجالا كبيرا للتحسين.
يتم الاتفاق بشكل عام في مجتمع معالجة اللغة الطبيعية (NLP) على أنه ينبغي دمج الأخلاقيات في أي منهج.إدراك وفهم المفاهيم الأساسية ذات الصلة هو شرط أساسي فيما يتعلق بالمشاركة والمشاركة في الخطاب على NLP الأخلاقية.نقدم هنا مواد تعليمية جاهزة في شكل شرائح وتمارين عملية على القضايا الأخلاقية في NLP، والتي تهدف في المقام الأول إلى دمجها في دورات تمهيدية أو دورات اللغويات الحسابية الحسابية.من خلال جعل هذه المواد متاحة بحرية، نهدف إلى خفض العتبة لإضافة الأخلاق إلى المنهج الدراسي.نأمل أن تتيح زيادة الوعي الطلاب من تحديد السلوك غير الأخلاقي المحتمل.
فهم اللغة الطبيعية (NLU) هو عنصر ثابت داخل نظام مساعد AI أو مساعد رقمي، وهو مسؤول عن إنتاج فهم دلالي لطلب المستخدم.نقترح مقاربة قابلة للتطوير والتلقائي لتحسين NLU في نظام AI محادثة على نطاق واسع من خلال الاستفادة من تعليقات المستخدم الضمنية، مع وجود نظرة ثاقبة لبيانات تفاعل المستخدم وسياق الحوار معلومات غنية بما يمكن استنتاج رضا المستخدم ونيةه.على وجه الخصوص، نقترح إطارا أمرا مدرجا لمنح بيانات الإشراف الجديدة لتحسين NLU من حركة الإنتاج الحي.مع مجموعة واسعة من التجارب، نعرض نتائج تطبيق الإطار وتحسين NLU لنظام إنتاج واسع النطاق عبر 10 مجالات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا