ترغب بنشر مسار تعليمي؟ اضغط هنا

إحكيم: التعليق التوضيحي الكلام الطبيعي للمحادثة ذات الدقة مع التوزيعات المقدرة

NUANCED: Natural Utterance Annotation for Nuanced Conversation with Estimated Distributions

234   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

غالبا ما تكون أنظمة المحادثة الموجودة في معظمها، مما يفترض أن تصطب المستخدمين سيتبعون عن كثب نظام ontology. ومع ذلك، في سيناريوهات العالم الواقعي، من المستحسن للغاية أن يستخدم المستخدمون التحدث بحرية وبطبيعة الحال. في هذا العمل، نحاول بناء نظام حوار تركز على المستخدمين لتوصية المحادثة. نظرا لعدم وجود رسم خرائط نظيفة لنكل النموذج المجاني للمستخدم لعلاج الأطباق، فإننا نقوم أولا بنموذج تفضيلات المستخدمين كتوزيعات مقدرة على نظام OnTology ونصوص المستخدمين على هذه التوزيعات. إن تعلم مثل هذه الرسوم الخرائط يشكل تحديات جديدة على التفكير في أنواع مختلفة من المعرفة، بدءا من المعرفة العفاهية، ومعرفة المنطقية لحالات المستخدمين الخاصة. تحقيقا لهذه الغاية، نبني مجموعة بيانات جديدة تسمى الدقيقة التي تركز على هذه الإعدادات الواقعية، مع حوارات 5.1k، تتحول 26 ألفا إلى ردود المستخدم عالية الجودة. نقوم بإجراء تجارب، مما يدل على حد سواء فائدة وتحديات إعداد مشكلتنا. نعتقد أن الدقة يمكن أن يكون بمثابة مورد قيمة لدفع الأبحاث الحالية من النظام المركزي للعميل إلى النظام المركزي للمستخدم. الرمز والبيانات متاح علنا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التعليق التوضيحي المعرفي العالمي (UCCA) هو مخطط توضيحي دلالي ينظم النصوص في هيكل الوسائد الخشن، مما يوفر تغطية واسعة من الظواهر الدلالية.في الوقت نفسه، لا تزال هناك حاجة إلى علاج محمظ من العديد من الفئات.فئة الإعلان ذات أهمية خاصة، حيث تغطي مجموعة وا سعة من معاني مختلفة بشكل أساسي مثل النفي والسببية والجانب وقياس الحدث.في هذه الورقة، نقدم مخطط التعليق التوضيحي الصقل لفئة AUCCA Adverbial، والتي تبين أن UCCA Adverbials يمكن أن تكون بالفعل في الفئات الفرعية في 7 أنواع الدلالية على الأقل، والقيام بذلك يمكن أن تساعد في توضيح وتكريم تسميات الحبيبات الخشنة على خلاف ذلك.نحن نقدم مجموعة مبدئية من المبادئ التوجيهية التوضيحية، وكذلك تجارب التجريبية التوضيحي مع اتفاق مرتفع بين المشتريات، مما يؤكد صلاحية المخطط.
المواد الحيوية هي المواد الاصطناعية أو الطبيعية المستخدمة لبناء الأعضاء الاصطناعية، أو تصنيع الأطراف الاصطناعية، أو استبدال الأنسجة. شهد القرن الماضي تطور الآلاف من المواد الحيوية الجديدة، ونتيجة لذلك، زيادة أسية في المنشورات العلمية في هذا المجال. ي مكن أن تمكن تحليل واسع النطاق من المواد الحيوية وأدائها اختيار المواد التي يحركها البيانات وتصميم الزرع. ومع ذلك، يتطلب مثل هذا التحليل تحديد وتنظيم المفاهيم، مثل المواد والهياكل، من النصوص المنشورة. لتسهيل استخراج المعلومات في المستقبل وتطبيق تقنيات تعلم الآلات، قمنا بتطوير Annotator الدلالي خصيصا مصممة خصيصا لأدبيات المواد الحيوية. تم تنفيذ Annetator SNANTATATATATATOR باتباع منظمة وحدات تستخدم حاويات البرمجيات للمكونات المختلفة وتزويرها باستخدام nextflow كدير سير العمل. تم تطوير مكونات معالجة اللغة الطبيعية (NLP) بشكل أساسي في Java. سمح هذا الإعداد بالاعتراف الكي في الكيان المسمى بدقة سبعة عشر فئة ذات صلة بمجال المواد الحيوية. نحن هنا تفصيل تطوير وتقييم وأداء النظام، وكذلك إصدار المجموعة الأولى من ملخصات المواد الحيوية المشروحة. نجعل كل من الجور والنظام المتاح للمجتمع لتعزيز الجهود المستقبلية في هذا المجال والمساهمة في استدامتها.
يعد Growdsourcing من غير الخبراء أحد أكثر الطرق شيوعا لجمع البيانات والشروح في NLP. على الرغم من أن هذه الأداة الأساسية في NLP، إلا أن استخدام الجماعة الجماعية يسترشد إلى حد كبير بالممارسات المشتركة والخبرة الشخصية للباحثين. يظل تطوير نظرية الاستخدام الجماعي لمشاكل اللغة العملية تحديا مفتوحا. ومع ذلك، هناك العديد من المبادئ والممارسات التي أثبتت فعاليتها في توليد بيانات عالية الجودة ومتنوعة. يعرض هذا البرنامج التعليمي الباحثين NLP إلى هذه الأساليب والمبادئ الجماعية لجمع البيانات هذه من خلال مناقشة مفصلة لمجموعة متنوعة من دراسات الحالة. يركز اختيار دراسات الحالة على الإعدادات الصعبة حيث يطلب من الجمهور أن يكتب النص الأصلي أو أداء العمل غير المقيد نسبيا. من خلال دراسات الحالة هذه، نناقش في عمليات تفصيلية مصممة بعناية لتحقيق البيانات ذات الخصائص المحددة، على سبيل المثال تتطلب الاستدلال المنطقي أو التفكير الأساسي أو فهم المحادثة. تركز كل دراسة حالة على تفاصيل بروتوكول جمع البيانات التابعة للبيانات التي غالبا ما تتلقى اهتماما محدودا في العروض البحثية البحثية، على سبيل المثال في المؤتمرات، ولكنها حاسمة لنجاح البحث.
يمكن أن تلعب الموارد الحسابية مثل سورانيا المشروح الدولى دورا مهما في تمكين المتحدثين لغات الأقليات الأصلية للمشاركة في الحكومة والتعليم ومجالات الحياة العامة في لغتهم العامة.ومع ذلك، فإن العديد من اللغات - بشكل رئيسي أولئك الذين لديهم سكان متكلمون أ صليين صغار ودون تقاليد مكتوبة - ليس لديهم دعما رقميا.عقبة واحدة في إنشاء هذه الموارد هي أنه بالنسبة للعديد من اللغات، سيكون عدد قليل من المتحدثين قادرين على تسجيل النصوص - وهي مهمة تتطلب محو الأمية وبعض التدريب اللغوي - وأن وقت هؤلاء الخبراء عادة ما يكون في ارتفاع الطلب على أعمال تخطيط اللغة.تقوم هذه الورقة بتقييم ما إذا كانت غير مكبرات الصوت المدربة في لغة أصلية يمكن أن تؤدي إشعالا دلاليين باستخدام عروض توضيحي موحدة، مما يسمح بإنشاء مواد حسابية دون إيصال المزيد من الضغط على موارد المجتمع.
يمكن أن أنظمة البحث عن المحادثة الناجحة تجربة تسوق طبيعية وتكيفية وتفاعلية لعملاء التسوق عبر الإنترنت. ومع ذلك، فإن بناء هذه الأنظمة من الصفر تواجه تحديات الكلمة الحقيقية من كل من مخطط المنتج / المعرفة غير الصحيحة ونقص بيانات حوار التدريب. في هذا الع مل، نقترح أولا Convechearch، ونظام بحث محادثة نهاية إلى نهاية يجمع عميقا من نظام الحوار مع البحث. إنه يرفع ملف تعريف النص لاسترداد المنتجات، وهو أكثر قوة ضد مخطط / معرفة المنتج غير الكاملة مقارنة باستخدام سمات المنتج وحدها. ثم نتطلع إلى عدم وجود تحديات البيانات من خلال اقتراح نهج نقل الكلام الذي يولد كلام الحوار باستخدام مربع الحوار الحالي من المجالات الأخرى، والاستفادة من بيانات سلوك البحث من تجارة التجزئة الإلكترونية. مع نقل الكلام، نقدم مجموعة بيانات جديدة للبحث عن محادثة للتسوق عبر الإنترنت. تبين التجارب أن طريقة نقل الكلام لدينا يمكن أن تحسن بشكل كبير من توفر بيانات الحوار التدريبية دون تحديد مصادر الحشد، وتفوق نظام البحث عن المحادثة بشكل كبير على أفضل خط الأساس اختباره.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا