المحادثات الإنسانية تتطور بشكل طبيعي حول مواضيع مختلفة والتحرك بطلاقة بينهما.في البحوث على أنظمة الحوار، غالبا ما يتم تجاهل القدرة على الانتقال بنشاط وسلاسة إلى مواضيع جديدة.في هذه الورقة، نقدم TIAGE، وهو مؤشر مربع حوار مدرك مواضيع جديد يستخدم باستخد
ام التعليقات التوضيحية البشرية على نوبات الموضوع.استنادا إلى TIAGE، نقدم ثلاث مهام للتحقيق في سيناريوهات مختلفة من النمذجة التي تحول المواضيع في إعدادات الحوار: الكشف عن موضوع التحول، وموضوع تحول توليد استجابة استجابة وتوليد التدريب على الموضوع.تشير التجارب في هذه المهام إلى أن إشارات التحول في Tiage مفيدة لتوليد استجابة الموضوع.من ناحية أخرى، ما زالت أنظمة الحوار تكافح لتحديد وقت تغيير الموضوع.يشير هذا إلى أن هناك حاجة إلى مزيد من الأبحاث في نمذجة الحوار Topic-Shift Cy.
تمثل شركة كورسا الكبيرة من الويب موردا ممتازا لتحسين أداء أنظمة الترجمة الآلية العصبية (NMT) عبر العديد من أزواج اللغة. ومع ذلك، نظرا لأن هذه كورسيا صاخبة للغاية، فإن استخدامها محدود إلى حد ما. تركز النهج الحالية للتعامل مع هذه المشكلة أساسا على التر
شيح باستخدام الاستدلال أو ميزات واحدة مثل درجات نموذج اللغة أو التشابه الثنائي اللغوي. يقدم هذا العمل نهجا بديلا يتعلم الأوزان لميزات متعددة على مستوى الجملة. يتم استخدام هذه الأوزان الميزة التي تم تحسينها مباشرة لمهمة تحسين أداء الترجمة، وتسجيل الجمل والتصفية في كورسا صاخبة بشكل أكثر فعالية. نحن نقدم نتائج تطبيق هذه التقنية لبناء أنظمة NMT باستخدام Corpus Paracrawl For Estonian-English وإظهار أنه يدق خطوط خطوط ميزة واحدة قوية ومجموعات مصممة باليد. بالإضافة إلى ذلك، نقوم بتحليل حساسية هذه الطريقة لأنواع مختلفة من الضوضاء واستكشاف إذا تعميم الأوزان المستفادة إلى أزواج لغة أخرى باستخدام Corpus Maltese-English Paracrawl Corpus.
نماذج تتبع حكومية الحوار تلعب دورا مهما في نظام حوار موجه نحو المهام.ومع ذلك، فإن معظمهم يصطادون أنواع الفتحات بشكل مشروط بإدخال المدخلات بشكل مشروط.نكتشف أنه قد يتسبب في الخلط النموذج من خلال أنواع الفتحات التي تشترك في نفس نوع البيانات.لتخفيف هذه ا
لمشكلة، نقترح Trippy-MRF و Trippy-LSTM النماذج التي تطرح الفتحات بشكل مشترك.تظهر نتائجنا أنهم قادرون على تخفيف الارتباك المذكور أعلاه، ويدفعون الحديث في DataSet MultiWoz 2.1 من 58.7 إلى 61.3.
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع
ين، مما يؤدي إلى تأثير تأييد يزيد من حية معلومات المعلومات. في هذه الورقة، نقوم بالنماذج تأثير تأييد المستندات عبر المستندات واستخدامها في تلخيص مستندات متعددة. تقوم طريقتنا بإنشاء ملخص من كل مستند، والتي تعمل كموثوقية لتحديد المحتوى البارز من مستندات أخرى. يتم استخدام قطاعات نصية تم تأييدها بشدة لإثراء نموذج فك التشفير العصبي لتعزيزها في ملخص مبيعات. تتمتع هذه الطريقة بإمكانيات كبيرة للتعلم من أمثلة أقل لتحديد المحتوى البارزين، مما يخفف من الحاجة إلى إعادة تدريب مكلفة عند تعديل مجموعة المستندات بشكل حيوي. من خلال تجارب واسعة النطاق حول مجموعات بيانات تلخيص المستندات متعددة الوثائق القياسية، نوضح فعالية أسلوبنا المقترح على خطوط خطوط أساسية منشورة قوية. أخيرا، ألقينا الضوء على اتجاهات البحث في المستقبل ومناقشة تحديات أوسع من هذه المهمة باستخدام دراسة حالة.
تتحول نماذج المحادثة واسعة النطاق إلى الاستفادة من المعرفة الخارجية لتحسين الدقة الواقعية في توليد الاستجابة.بالنظر إلى عدم التعليق على المعرفة الخارجية لعوريا الحوار واسعة النطاق، من المستحسن معرفة اختيار المعرفة وتوليد الاستجابة بطريقة غير منشأة.في
هذه الورقة، نقترح أفلاطون كاج (توليد المعرفة المعزز)، ونهج تعليمي غير مخطط له لنمذجة المحادثة المحفوظة على المعرفة الطرفية.لكل سياق حوار، يتم اختيار عناصر المعرفة ذات الصلة من الأعلى وبعد ذلك في توليد الاستجابة المدرجة في المعرفة.يتم تحسين مكونين اختيار المعرفة وتوليد الاستجابة بشكل مشترك وفعال تحت هدف متوازن.النتائج التجريبية على اثنين من مجموعات البيانات المتاحة للجمهور التحقق من تفوق أفلاطون كاج.
مع ظهور جائحة Covid-19، تم دمج الجوانب السياسية والطبية المتمثلة في التضليل حيث حصلت المشكلة على ارتفاع إلى مستوى جديد تماما لتصبح أول انفجار عالمي. تم إعلان محاربة هذا المعف النقود أحد أهم مجالات التركيز في منظمة الصحة العالمية، مع وجود مخاطر تتراوح
من تعزيز العلاجات المزيفة والشائعات ونظريات المؤامرة لنشر كراهية الأجانب والذعر. يتطلب معالجة القضية حل عدد من المشاكل الصعبة مثل تحديد الرسائل التي تحتوي على مطالبات، وتحديد الجدارة الشيكية والوصيل لها، وإمكاناتها لإيذاءها وكذلك طبيعة هذا الضرر، لنذكر عدد قليل فقط. لمعالجة هذه الفجوة، نقوم بإصدار مجموعة بيانات كبيرة من 16 ألف تغريدات مشروح يدويا لتحليل التهيئة الدقيقة التي يركز عليها (ط) على CovID-19، (II) تجمع بين وجهات النظر ومصالح الصحفيين، ومساجي الحقائق، ومنصات وسائل التواصل الاجتماعي ، صانعي السياسات، والمجتمع، و (3) يغطي العربية والكبلانية والهولندية والإنجليزية. أخيرا، نظهر نتائج تقييم قوية باستخدام محولات مسبقا، وبالتالي تؤكد الأداة المساعدة العملة لمجموعة البيانات في أحادي التوتر مقابل تعدد اللغات، ومهمة واحدة مقابل إعدادات متعددة.
يمكن التفكير في رواية القصص، سواء عبر الخرافات أو التقارير الإخبارية أو الأفلام الوثائقية أو المذكرات، باعتبارها اتصال بالأحداث المثيرة للاهتمام والذين يرتبطون معا عملية ملموسة. من المستحسن استخراج سلاسل الحدث التي تمثل هذه العمليات. ومع ذلك، لا تزال
هذه الاستخراج مشكلة صعبة. نؤخر أن هذا يرجع إلى طبيعة النصوص التي يتم اكتشاف السلاسل منها. ينبط نص اللغة الطبيعية على سرد من الأحداث الخرسانية والبرية مع معلومات أساسية، والسياق، والرأي، والعناصر الأخرى التي تعتبر مهمة لمجموعة متنوعة من الخطاب الضروري وأعمال البراغماتية ولكنها ليست جزءا من سلسلة الأحداث الرئيسية التي يتم إبلاغها. نقدم طرق لاستخراج هذه السلسلة الرئيسية من نص اللغة الطبيعية، عن طريق تصفية الأحداث غير البارزة والجمل الداعمة. نوضح فعالية أساليبنا بمعزل سلاسل الأحداث الهامة من خلال مقارنة تأثيرها على مهام المصب. نظرا لأنه من خلال نماذج لغة كبيرة مسبقا على سلاسلنا المستخرجة لدينا، نحصل على تحسينات في مهمتين تستفيد من فهم واضح لسلاسل الأحداث: التنبؤ السردي والمسألة الزمنية القائمة على الأحداث الرد. تؤكد التحسينات الواجب والدراسات الودي أن طريقة استخراجنا تعزز سلاسل الأحداث الهامة.
نقدم نهجا جديدا محاطا جديدا موجه للنمذجة اللغوية متعددة الوثائق، حيث تتضمن أفكيرا رئيسيتين في النمذجة اللغوية المشنقة بالهدف الإشراف على الذات.أولا، بدلا من النظر في الوثائق في العزلة، نحن نتفق مع مجموعات من المستندات المتعددة المتعددة، تشجيع النموذج
على تعلم العلاقات عبر الوثائق.ثانيا، نحسن أكثر من المحولات الطويلة المدى حديثا عن طريق إدخال اهتمام عالمي ديناميكي يتمكن من الوصول إلى الإدخال بأكمله للتنبؤ بالرموز الملثم.نقوم بإصدار CDLM (نموذج اللغة عبر المستندات)، وهو نموذج لغة عام جديد لإعداد متعدد الوثائق يمكن تطبيقه بسهولة على مهام المصب.يوضح تحليلنا الواسع أن كلا الأفكار ضرورية لنجاح CDLM، والعمل في تآزر لتعيين نتائج جديدة من الفنون الجديدة لعدة مهام متعددة النص.
في الآونة الأخيرة، أصبح البحث برعاية واحدة من أكثر القنوات المربحة للتسويق. كأساس أساسي للبحث المدعى عليه، اجتذبت النمذجة ذات الصلة الاهتمام المتزايد بسبب القيمة العملية الهائلة. معظم الطرق الحالية تعتمد فقط على أزواج الكلمات الرئيسية للاستعلام. ومع
ذلك، عادة ما تكون الكلمات الرئيسية عادة نصوص قصيرة مع معلومات دلالية ندرة، والتي قد لا تعكس بدقة النوايا الإعلانية الأساسية. في هذه الورقة، نقوم بالتحقيق في مشكلة الرواية في النمذجة ذات الصلة بالمعلن، والتي ترفف معلومات المعلنين لسد الفجوة بين نوبة البحث وأغراض الإعلان. يكمن دوافعنا في دمج سلوكيات العطاءات غير المزودة بحيث تكون الرسوم البيانية التكميلية لتعلم تمثيلات معلنة مرغوبة. قد نقترح مزيدا من الرسوم البيانية المزايدة في الرسم البياني المعزز بنموذج BGTR مع ثلاثة أبراج لصمامات الرسوم البيانية العطاءات والبيانات النصية الدلالية. تجريبيا، نقوم بتقييم نموذج BGTR عبر مجموعة بيانات كبيرة، والنتائج التجريبية تظهر باستمرار تفوقها.
إن الاندماج المثالي للوكلاء المستقلين في عالم بشري يعني أنهم قادرون على التعاون على الشروط الإنسانية.على وجه الخصوص، تلعب نظرية العقل دورا مهما في الحفاظ على أرضية مشتركة أثناء التعاون البشري والتواصل.لتمكين نظرية العقل النمذجة في التفاعلات الموجزة،
نقدم مجموعة بيانات رائعة من المهام التعاونية التي أجرتها أزواج من الموضوعات البشرية في العالم الافتراضي ثلاثي الأبعاد في عالم MINECRAFT.يوفر المعلومات التي تلتقط معتقدات الشركاء في العالم وبعضها البعض كتفاعل تتكشف، مما يجعل فرصا وفرة لدراسة السلوكيات التعاونية البشرية في الاتصالات اللغوية المحددة.كخطوة أولى نحو هدفنا المتمثل في تطوير وكلاء منظمة العفو الدولية المجسدة قادرة على استنتاج حالات الاعتقاد بالشركاء التعاوني في الموقع، ونحن نبني وتقديم النتائج على النماذج الحسابية لعدة نظرية مهام العقل.