ترغب بنشر مسار تعليمي؟ اضغط هنا

فيما يتعلق بالحاجة إلى جمع البيانات المدروس للحوار متعدد الأحزاب: دراسة استقصائية لأساليب كورسا وجمع المتاحة

On the Need for Thoughtful Data Collection for Multi-Party Dialogue: A Survey of Available Corpora and Collection Methods

185   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم دراسة شاملة للسبوريا المتاحة للحوار متعدد الأحزاب.نقوم بإجراء أكثر من 300 منشور مرتبط بالحوار المتعدد الأحزاب والكتالوج كافة شركة متاحة في التصنيف الجديد.نقوم بتحليل أساليب جمع البيانات لشركة حوار متعددة الأحزاب والحساب وتحديد العديد من المضادات في نهج جمع البيانات الحالية المستخدمة لجمع هذا الحوار.نقدم هذا الاستطلاع، والمسح الأول يركز حصريا على برج الحوار متعدد الأحزاب، لتحفيز البحث في هذا المجال.من خلال مناقشتنا بطرق جمع البيانات الحالية، نحدد Desiderata والمبادئ التوجيهية لمجموعة بيانات متعددة الأحزاب للمساهمة بزيادة تعزيز هذا المجال بحوث الحوار.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحتوي العديد من مجموعات بيانات NLP الجماعية على القطع الأثرية المنهجية التي تم تحديدها فقط بعد اكتمال جمع البيانات. يجب أن يسهل تحديد الهوية السابقة من هذه القضايا إنشاء بيانات تدريبية وتقييم عالية الجودة. نحاول ذلك عن طريق تقييم البروتوكولات التي يع مل فيها اللغويين الخبراء في الحلقة "أثناء جمع البيانات لتحديد هذه المشكلات ومعالجتها عن طريق ضبط تعليمات المهام والحوافز. باستخدام الاستدلال اللغوي الطبيعي كحالة اختبار، قارن ثلاثة بروتوكولات جمع البيانات: (1) بروتوكول أساسي مع عدم وجود تورط لغوي، (2) تدخل لغوي في حلقة مع قيود محدثة بشكل متطور على مهمة الكتابة، و (3) تمديد يضيف التفاعل المباشر بين اللغويين والملائقيين عبر غرفة الدردشة. نجد أن المشاركة اللغوية لا تؤدي إلى زيادة الدقة على مجموعات اختبار خارج المجال مقارنة مع خط الأساس، وإضافة غرفة من الدردشة ليس لها تأثير على البيانات. ومع ذلك، فإن المشاركة اللغوية تؤدي إلى بيانات تقييم أكثر تحديا ودقة أعلى في بعض مجموعات التحدي، مما يدل على فوائد دمج تحليل الخبراء أثناء جمع البيانات.
يجب أن تتخذ أنظمة المساعدة الإنسانية مثل أنظمة الحوار إجراءات مدروسة ومناسبة ليس فقط لطلبات المستخدم الواضحة وغير التي لا لبس فيها، ولكن أيضا لطلبات المستخدم الغامضة، حتى لو لم يكن المستخدمون أنفسهم على دراية بمتطلباتهم المحتملة. لبناء مثل هذا وكيل ا لحوار، قامنا بجمع كوربوس وتطوير نموذج يصنف طلبات المستخدم الغامضة في إجراءات النظام المقابلة. من أجل جمع كوربوس عالي الجودة، طلبنا من العمال لإدخال طلبات المستخدم السابقة لامرأة التي يمكن اعتبار الإجراءات المحددة مسبقا مدروسا. على الرغم من أن الإجراءات المتعددة يمكن تحديدها على أنها مدروس لطلب مستخدم واحد، فإن فحص جميع مجموعات طلبات المستخدمين وإجراءات النظام غير عملي. لهذا السبب، شرحنا بالكامل فقط بيانات الاختبار وترك التعليق التوضيحي لبيانات التدريب غير مكتملة. لتدريب نموذج التصنيف على بيانات التدريب هذه، طبقنا طريقة التعلم الإيجابية / غير المستمرة (PU)، التي تفترض أن جزءا فقط من البيانات يتم وصفه بأمثلة إيجابية. تظهر النتائج التجريبية أن طريقة التعلم بو تحقق أداء أفضل من طريقة التعلم الإيجابية / السلبية العامة (PN) لتصنيف الإجراءات المدروسة بالنظر إلى طلب مستخدم غامض.
يعد تطبيع المفهوم للنصوص السريرية للتصنيفات الطبية القياسية والاتجاهات مهمة ذات أهمية عالية للبحث الطبي للرعاية الصحية. نحاول حل هذه المشكلة من خلال ترميز CT التلقائي CT، حيث يعد CT Snomed CT أحد أونولوجيات المصطلحات السريرية الأكثر استخداما وشاملة ع لى نطاق واسع. ومع ذلك، فإن تطبيق نماذج التعلم العميق الأساسية يؤدي إلى نتائج غير مرغوب فيها بسبب الطبيعة غير المتوازنة للبيانات والعدد المتطرف من الفصول الدراسية. نقترح إجراء التصنيف الذي يحتوي على سير عمل متعدد الخطوات يتكون من تجميع الملصقات، والتصنيف متعدد الكتلة، ورسم الخرائط عن المجموعات إلى الملصقات. بالنسبة للتصنيف متعدد المجموعات، BioBert يتم ضبطه بشكل جيد على مجموعة بياناتنا المخصصة. يتم إجراء تعيين مجموعات إلى التسميات من قبل A One-VS-All Mederifier (SVC) المطبق على كل كتلة واحدة. نقدم أيضا خطوات لتوليد البيانات التلقائي من الأوصاف النصية المشروحة مع رموز CT Conomed بناء على البيانات العامة والبيانات المفتوحة المرتبطة. من أجل التعامل مع المشكلة أن DataSet لدينا غير متوازنة للغاية، يتم تطبيق بعض طرق تكبير البيانات. تظهر النتائج من التجارب التي أجريت دقة عالية وموثوقية نهجنا للتنبؤ برموز CT Conomed ذات الصلة بنص سريري.
يعد Growdsourcing من غير الخبراء أحد أكثر الطرق شيوعا لجمع البيانات والشروح في NLP. على الرغم من أن هذه الأداة الأساسية في NLP، إلا أن استخدام الجماعة الجماعية يسترشد إلى حد كبير بالممارسات المشتركة والخبرة الشخصية للباحثين. يظل تطوير نظرية الاستخدام الجماعي لمشاكل اللغة العملية تحديا مفتوحا. ومع ذلك، هناك العديد من المبادئ والممارسات التي أثبتت فعاليتها في توليد بيانات عالية الجودة ومتنوعة. يعرض هذا البرنامج التعليمي الباحثين NLP إلى هذه الأساليب والمبادئ الجماعية لجمع البيانات هذه من خلال مناقشة مفصلة لمجموعة متنوعة من دراسات الحالة. يركز اختيار دراسات الحالة على الإعدادات الصعبة حيث يطلب من الجمهور أن يكتب النص الأصلي أو أداء العمل غير المقيد نسبيا. من خلال دراسات الحالة هذه، نناقش في عمليات تفصيلية مصممة بعناية لتحقيق البيانات ذات الخصائص المحددة، على سبيل المثال تتطلب الاستدلال المنطقي أو التفكير الأساسي أو فهم المحادثة. تركز كل دراسة حالة على تفاصيل بروتوكول جمع البيانات التابعة للبيانات التي غالبا ما تتلقى اهتماما محدودا في العروض البحثية البحثية، على سبيل المثال في المؤتمرات، ولكنها حاسمة لنجاح البحث.
يجلب الفهم القراءة آلة حوار متعدد الأحزاب (MRC) تحديا هائلا لأنه ينطوي على مكبرات صوت متعددة في حوار واحد، مما أدى إلى تدفقات معلومات المتكلم المعقدة وسياقات الحوار الصاخبة.لتخفيف هذه الصعوبات، تركز النماذج السابقة على كيفية دمج هذه المعلومات باستخدا م الوحدات النمطية المستندة إلى الرسم البياني المعقدة والبيانات الإضافية المسمى يدويا، والتي عادة ما تكون نادرة في السيناريوهات الحقيقية.في هذه الورقة، نقوم بتصميم مهام التنبؤ ذات الإشراف الذاتي والخالية من العمالة في العمل على المتكلم والكلام الرئيسي للنموذج الضمني لتدفقات معلومات المتكلم، والتقاط أدلة بارزة في حوار طويل.تبرر النتائج التجريبية على مجموعة من مجموعات البيانات القياسية لفعالية أسلوبنا على أساس الأساس التنافسي والنماذج الحديثة الحالية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا