توليد أزواج الإجابة ذات الجودة العالية هي مهمة صلبة ولكنها ذات مغزى. على الرغم من أن الأعمال السابقة قد حققت نتائج رائعة حول توليد الأسئلة على دراية بالإجابة، فمن الصعب تطبيقها في تطبيق عملي في مجال التعليم. تتناول هذه الورقة لأول مرة مهمة توليد زوج
الإجابة السؤال في بيانات الفحص العالمي الحقيقي، وتقترح إطارا جديدا جديدا في العرق. لالتقاط المعلومات المهمة لمقطع الإدخال، نقوم أولا بإنشاء أجهزة iTPhragrases (بدلا من استخراج)، وبالتالي يتم تقليل هذه المهمة إلى توليد مشترك مسدد السؤال عن السؤال المجاني. تبعا لذلك، نقترح نموذج اتصالات متعددة الوكيل لتوليد واستفسار الأسئلة والمجاسات القصيرة بشكل متكرر، ثم قم بتطبيق السؤال والمجاسيات المتولدة لتوجيه جيل الإجابات. لإنشاء معيار قوي، نبني نموذجنا على نموذج ما قبل التدريب الجيل القوي. تظهر النتائج التجريبية أن نموذجنا يجعل اختراقات كبيرة في مهمة جيل الإجابة عن السؤال. علاوة على ذلك، فإننا نصنع تحليلا شاملا على طرازنا، مما يشير إلى اتجاهات جديدة لهذه المهمة الصعبة.
تتوفر أنظمة الإجابة على الأسئلة (QA) الآن من خلال العديد من التطبيقات التجارية لمجموعة واسعة من المجالات، مما يخدم ملايين المستخدمين الذين يتفاعلون معهم عبر واجهات الكلام.ومع ذلك، فإن المعايير الحالية في أبحاث ضمنيا لا تحسب الأخطاء التي قد تعرضها نما
ذج التعرف على الكلام، ولا تفكر في اختلافات اللغة (لهجات) للمستخدمين.لمعالجة هذه الفجوة، نزيد من مجموعة بيانات QA الحالية لبناء معيارا متعدد الهياكل المتعددة، معيار QA المنطوقة في خمس لغات (العربية، البنغالية، الإنجليزية، الكورية، الكورية) مع أكثر من 68K Audio مطالبات في 24 لهجة من 255 متحدثا.نحن نقدم نتائج خط الأساس عرض الأداء العالمي الحقيقي لأنظمة ضمان الجودة وتحليل تأثير مجموعة متنوعة اللغات وغيرها من سمات المتكلم الحساسة على أداء المصب.أخيرا، ندرس عدالة نماذج ASR و QA فيما يتعلق بسكان المستخدمين الأساسيين.
مع ظهور جائحة Covid-19، تم دمج الجوانب السياسية والطبية المتمثلة في التضليل حيث حصلت المشكلة على ارتفاع إلى مستوى جديد تماما لتصبح أول انفجار عالمي. تم إعلان محاربة هذا المعف النقود أحد أهم مجالات التركيز في منظمة الصحة العالمية، مع وجود مخاطر تتراوح
من تعزيز العلاجات المزيفة والشائعات ونظريات المؤامرة لنشر كراهية الأجانب والذعر. يتطلب معالجة القضية حل عدد من المشاكل الصعبة مثل تحديد الرسائل التي تحتوي على مطالبات، وتحديد الجدارة الشيكية والوصيل لها، وإمكاناتها لإيذاءها وكذلك طبيعة هذا الضرر، لنذكر عدد قليل فقط. لمعالجة هذه الفجوة، نقوم بإصدار مجموعة بيانات كبيرة من 16 ألف تغريدات مشروح يدويا لتحليل التهيئة الدقيقة التي يركز عليها (ط) على CovID-19، (II) تجمع بين وجهات النظر ومصالح الصحفيين، ومساجي الحقائق، ومنصات وسائل التواصل الاجتماعي ، صانعي السياسات، والمجتمع، و (3) يغطي العربية والكبلانية والهولندية والإنجليزية. أخيرا، نظهر نتائج تقييم قوية باستخدام محولات مسبقا، وبالتالي تؤكد الأداة المساعدة العملة لمجموعة البيانات في أحادي التوتر مقابل تعدد اللغات، ومهمة واحدة مقابل إعدادات متعددة.
في هذا العمل، نتعلم مشكلة تصنيف العالم المفتوح مع طريقة تسمى الدعاء، وفتح التصنيف العالمي عبر المثيلات التي تحولت بشكل تدريجي.هذه الطريقة الرواية والمساومة يمكن أن تنشئ مثيلات خارج المجال من مثيلات التدريب داخل المجال بمساعدة نموذج لغة تابعة مدرب مسب
قا.تظهر النتائج التجريبية أن التصديح يؤدي إلى أفضل من طريقة العثور على قرارات القرار الحديثة.
عادة ما تستخدم قواعد المعرفة العلوية (KBS) لتمثيل المعرفة العالمية في الآلات. ومع ذلك، في حين أن مفيدة لدرجة عالية من الدقة والتفسيرية، عادة ما يتم تنظيم KBS وفقا للخطط المعرفة يدويا، والتي تحد من تعبيرها وتتطلب جهود إنسانية كبيرة للمهندس والصيانة. ف
ي هذا الاستعراض، نأخذ منظور معالجة لغات طبيعية لهذه القيود، وفحص كيفية معالجةها جزئيا من خلال تدريب نماذج اللغة السياقية العميقة (LMS) لاستيعابها والتعبير عن المعرفة العلاجية بأشكال أكثر مرونة. نقترح تنظيم استراتيجيات تمثيل المعرفة في LMS بواسطة مستوى إشراف KB المقدمة، من أي إشراف KB على الإشراف على مستوى الكيان والعلاقات. مساهماتنا هي ثلاثة أضعاف: (1) نحن نقدم تصنيفا رفيع المستوى، توسع لتمثيل المعرفة في LMS؛ (2) ضمن تصنيفنا، نسلط الضوء على النماذج البارزة ومهام التقييم والنتائج، من أجل تقديم استعراض محدث لقدرات تمثيل المعرفة الحالية في LMS؛ و (3) نقترح اتجاهات البحث في المستقبل التي تبني على الجوانب التكميلية ل LMS و KBS كتمثيل المعرفة.
نظرا لأن منظمة العفو الدولية تصل إلى اعتماد أوسع، فإن تصميم أنظمة تفسير وتفسير تصبح ضرورة حاسمة.على وجه الخصوص، عندما يتعلق الأمر بأنظمة الحوار، يجب أن يكون سببها شفافا ويجب أن يتوافق مع الحدس البشري من أجل دمجها بسلاسة في أنشطة تعاونية في الإنسان ال
يومية.هنا، نصف عملنا المستمر في نظام الحوار (للأغراض العامة) المزودة بأخصائي مكاني مع قدرات توضيحية.طبقنا هذا النظام بمهمة معينة من توصيف التكوينات المكانية للمكتلات في مجال عالمي كتل مادية (BW) باستخدام تعبيرات دولية طبيعية، بالإضافة إلى توليد مبررات للأوصاف المكانية المقترحة من خلال الإشارة إلى العوامل التي استخدمها النظام للوصول إليهااستنتاج معين.
نظرا للتقدم المؤخرا لمعالجة اللغات الطبيعية، قامت عدة أعمال بتطبيق نموذج اللغة الملثم المدرب مسبقا (MLM) من Bert إلى ما بعد تصحيح التعرف على الكلام.ومع ذلك، فإن النماذج القائمة المدربة مسبقا فقط تنظر فقط في التصحيح الدلالي أثناء إهمال السمات الصوتية
للكلمات.سوف يؤدي الإصلاح الدلالي الوحيد فقط إلى تقليل الأداء لأن الأخطاء هوموفونية شائعة إلى حد ما في الصيني العسكري.في هذه الورقة، اقترحنا نهجا جديدا لاستغلال التمثيل السياقي بشكل جماعي والمعلومات الصوتية بين الخطأ واستبدال المرشحين لتخفيف معدل الخطأ الصيني العسكري.أظهرت نتائج تجربتنا على مجموعات بيانات التعرف على الكلام العالمي الحقيقي أن طريقةنا المقترحة لها من الواضح أن خفضت من النموذج الأساسي، مما استخدم برت مزاملا مدربا مسبقا كصاصر.
يمكن جمع كميات كبيرة من سجلات التفاعل من أنظمة NLP التي يتم نشرها في العالم الحقيقي.كيف يمكن الاستفادة من هذه الثروة من المعلومات؟يعد استخدام سجلات التفاعل هذه في إعداد تعليم التعزيز (RL) غير متصل نهجا واعدا.ومع ذلك، نظرا لطبيعة مهام NLP وقيود أنظمة
الإنتاج، تنشأ سلسلة من التحديات.نقدم نظرة عامة موجزة عن هذه التحديات ومناقشة الحلول الممكنة.
نحن نبحث عن مسألة كيف تؤثر ردود الفعل التكيفية من عامل الظاهري على المدخلات اللغوية للمستخدم في بيئة ألعاب عالمية مشتركة. للقيام بذلك، نقوم بإجراء دراسة تجريبية استكشافية لمراقبة كيفية تأثير ردود الفعل اللغوية الفردية على إدخال خطاب المستخدم. نقدم لع
بة تسيطر على الكلام، وإخلاء Apple الأساسية، حيث يتعلم الوكيل المهام المعقدة باستخدام معرفة قاعدة بأعمال بسيطة. تم تجهيز الوكيل بآلية تعليمية لرسم الأوامر الجديدة بتسلسل الإجراءات البسيطة، وكذلك القدرة على دمج إدخال المستخدم في ردود مكتوبة. يشارك الوكيل مرارا وتكرارا حالته المعرفة الداخلية من خلال الاستجابة لما يعرفه ولا يعرفه عن معنى اللغة والبيئة المشتركة. تركز ورقتنا على حلقة الملاحظات اللغوية من أجل تحليل طبيعة إدخال المستخدم. يتم توفير ردود الفعل من الوكيل في شكل حركة مرئية وردود لغوية مكتوبة. يتم إيلاء اهتمام خاص لإدماج مدخلات المستخدم في استجابات الوكيل وتحديث تعيينات الكلام إلى العمل بناء على الأوامر التي يقدمها المستخدم. من خلال دراستنا التجريبية، نقوم بتحليل نجاح المهمة ومقارنة الميزات المعجمية لإدخال المستخدم. تظهر النتائج الاختلاف في طول المدخلات والتنوع المعجمي عبر المستخدمين، مما يشير إلى ارتباط بين الاثنين يمكن دراستهما كذلك.
منذ فترة طويلة تم الاعتراف بأن اللاحقة أكثر شيوعا من البادئة بلغات العالم. هناك حاجة إلى إحصاءات أكثر تفصيلا حول هذا الاتجاه لشحذ التفسيرات المقترحة لهذا الاتجاه. والنهج الكلاسيكي لجمع البيانات حول تفضيل البادئة / لاحقة هو الإنسان لقراءة الأوصاف النح
وية (948 لغة)، وهي تستغرق وقتا طويلا وتتضمن أحكاما تقديرا. في هذه الورقة، نستكشف مناهجا مدفوعة بالآتصاد لإحصائيات البادئة واللاحقة التي هي تقريبية من النفط الخام، ولكن لديها مزايا من حيث الوقت وتكرارها. يبحث أولا ببساطة مجموعة كبيرة من الأوصاف النحوية للحوادث المتعلقة بادئة المصطلحات واللاحقة "(4 287 لغة). ثاني تحسب السلاحيات من بيانات النص الخام بطريقة تعكس بشكل غير مباشر البقرات واللقب (1 030 لغة، باستخدام ترجمات العهد الجديد). تتفق الأساليب الثلاثة إلى حد كبير في قياساتها ولكن هناك اختلافات نظرية وعملية مهمة. في جميع القياسات، هناك تفضيلات شاملة للإقصاء، وإن كان ذلك فقط قليلا، على نسب تتراوح بين 0.51 و 0.68.