في هذا البرنامج التعليمي، نقدم جزءا من الخبرة الصناعية الفريدة في التعليق التوضيحي لبيانات اللغة الطبيعية فعالة عبر الجماعة الجماعية المشتركة من قبل كل من الباحثين والمهندسين الرئيسيين من ياندكس.سنقوم بإعطاء مقدمة لوضع علامات البيانات عبر أسواق الجماعة الجماعية العامة وستقدم المكونات الرئيسية لجمع الملصقات الفعالة.سيتبع ذلك جلسة عملية، حيث يتناول المشاركون مهمة إنتاج موارد عالمية حقيقية، تجربة مع تحديد إعدادات عملية وضع العلامات، وإطلاق مشروع مجموعة الملصقات الخاصة بهم على أحد أكبر أسواق الجماعة الجماعية.سيتم تشغيل المشروعات على الحشود الحقيقية داخل جلسة البرنامج التعليمي وسنقدم تقنيات مفيدة لمراقبة الجودة وتزويد الحضور بفرصة لمناقشة أفكارهم التوضيحية الخاصة بهم.
In this tutorial, we present a portion of unique industry experience in efficient natural language data annotation via crowdsourcing shared by both leading researchers and engineers from Yandex. We will make an introduction to data labeling via public crowdsourcing marketplaces and will present the key components of efficient label collection. This will be followed by a practical session, where participants address a real-world language resource production task, experiment with selecting settings for the labeling process, and launch their label collection project on one of the largest crowdsourcing marketplaces. The projects will be run on real crowds within the tutorial session and we will present useful quality control techniques and provide the attendees with an opportunity to discuss their own annotation ideas.
المراجع المستخدمة
https://aclanthology.org/
إن ظهور التعلم العميق وتوافر مجموعات البيانات الكبيرة على نطاق واسع قد تسريع البحوث حول توليد اللغة الطبيعية مع التركيز على المهام الأحدث والنماذج الأفضل. مع تقدم سريع هذا، من الضروري تقييم مدى التقدم العلمي المحرز وتحديد المجالات / المكونات التي تحت
تقدم هذه الورقة خط أنابيب التعلم شبه الإشرافه (SSL) على أساس إطار المعلم الطالب، الذي يزداد ملايين الأمثلة غير المستمرة لتحسين مهام فهم اللغة الطبيعية (NLU). نحن نبحث في سؤالين يتعلق باستخدام البيانات غير المسبقة في سياق الإنتاج SSL: 1) كيفية تحديد ع
مراجعة العقود هي إجراء يستغرق وقتا طويلا يتحمل نفقات كبيرة للشركات وعدم المساواة الاجتماعية لأولئك الذين لا يستطيعون تحمل تكاليفها. في هذا العمل، نقترح استنتاج اللغة الطبيعي على مستوى المستند (NLI) للعقود "، وهو جديد، تطبيق عالمي حقيقي من NLI يتناول
يتم الاتفاق بشكل عام في مجتمع معالجة اللغة الطبيعية (NLP) على أنه ينبغي دمج الأخلاقيات في أي منهج.إدراك وفهم المفاهيم الأساسية ذات الصلة هو شرط أساسي فيما يتعلق بالمشاركة والمشاركة في الخطاب على NLP الأخلاقية.نقدم هنا مواد تعليمية جاهزة في شكل شرائح
فهم اللغة الطبيعية (NLU) هو عنصر ثابت داخل نظام مساعد AI أو مساعد رقمي، وهو مسؤول عن إنتاج فهم دلالي لطلب المستخدم.نقترح مقاربة قابلة للتطوير والتلقائي لتحسين NLU في نظام AI محادثة على نطاق واسع من خلال الاستفادة من تعليقات المستخدم الضمنية، مع وجود