في السنوات الأخيرة، اكتسب الرعاية الصحية الرقمية عن بعد باستخدام الدردشات عبر الإنترنت زخما، خاصة في الجنوب العالمي. على الرغم من أن العمل السابق قد درس أنماط التفاعل في المنتديات عبر الإنترنت (الصحة)، مثل Talklife، Reddit و Facebook، كان هناك عمل مح
دود في فهم التفاعلات في مجتمع صغير مقبول من الرسل الفوري. في هذه الورقة، نقترح إطار شرح لغوي لتسهيل تحليل مجموعات WhatsApp التي تركز على الصحة. الهدف الأساسي للإطار هو فهم العلاقات الشخصية بين مؤيديه الأقران من أجل المساعدة في تطوير حلول NLP لرعاية المرضى عن بعد وتقليل عبء مقدمي الرعاية الصحية المرهقين. يتكون إطارنا من تصنيف دعم الأقران من النظير الدقيق ووضع علامات معنويات على مستوى الرسائل. بالإضافة إلى ذلك، نظرا لانتشار خلط التعليمات البرمجية في هذه المجموعات، فإننا ندمج التعليقات التوضيحية لغة مستوى Word. نستخدم الإطار المقترح لدراسة مجموعتين WhatsApp في كينيا للشباب الذين يعيشون مع فيروس نقص المناعة البشرية، ويسهل من قبل مزود للرعاية الصحية.
نقدم الدخول الفائز إلى مهمة مشتركة من التطبيع المعجمي متعدد اللغات (Multilexnorm) في W-Nut 2021 (Van Der Goot et al.، 2021A)، والتي تقيم أنظمة التطبيع المعجمي في 12 مجموعة بيانات وسائل التواصل الاجتماعي في 11 لغة.نقوم بتأسيس حلنا على نموذج لغة بايت م
دروس مسبقا، BYT5 (Xue et al.، 2021A)، والتي ندرجها مسبقا على البيانات الاصطناعية ثم تناغم بشكل جيد على بيانات التطبيع الأصيل.يحقق نظامنا أفضل أداء بهامش واسع في التقييم الجوهري، وأيضا أفضل أداء في التقييم الخارجي من خلال تحليل التبعية.يتم إصدار شفرة المصدر في https://github.com/ufal/multilexnorm2021 والنماذج الدقيقة في https://huggingface.co/ufal.
تعدد اللغات T5 Pretrains نموذج تسلسل إلى تسلسل على نصوص أحادية الأبعاد ضخمة، والتي أظهرت نتائج واعدة على العديد من المهام المتبقية اللغوية.في هذه الورقة، نحسن محول نقل النص إلى النص متعدد اللغات مع أزواج الترجمة (MT6).على وجه التحديد، نستكشف ثلاثة مه
ام ما قبل التدريب النصي عبر اللغات، وهي الترجمة الآلية، والفساد زوج الترجمة، وتمضم الفساد المشترك.بالإضافة إلى ذلك، نقترح هدف جزئيا غير التلقائي للتدريب المسبق للنص.نقيم الأساليب على سبع مجموعات بيانات معيار متعددة اللغات، بما في ذلك تصنيف الجملة، والاعتراف بالكياء المسمى، والإجابة على الأسئلة، والتلخيص الجماعي.تظهر النتائج التجريبية أن MT6 المقترح يحسن عملية النقل عبر اللغات عبر MT5.
تهدف وضع العلامات للتسلسل إلى التنبؤ بتسلسل غرامة من الملصقات للنص. ومع ذلك، تعوق هذه الصياغة فعالية الأساليب الخاضعة للإشراف بسبب عدم وجود بيانات مشروحة على مستوى الرمز المميز. يتم تفاقم هذا عندما نلتقي مجموعة متنوعة من اللغات. في هذا العمل، نستكشف
تسلسل تسلسل متعدد اللغات مع الحد الأدنى من الإشراف باستخدام نموذج موحد واحد لغات متعددة. على وجه التحديد، نقترح شبكة طالب مدرس من المعلمين (MITA)، وهي طريقة لتعلم التعريف الجديدة لتخفيف ندرة البيانات من خلال الاستفادة من البيانات الكبيرة متعددة اللغات غير المسبقة. يعتمد أطر من المعلمين السابقة من المعلمين من التدريب الذاتي على استراتيجيات تدريس جامدة، والتي بالكاد تنتج ملصقات زائفة عالية الجودة للرموز المتتالية والمترابطة. على العكس من ذلك، يسمح Metats بالمعلم بتكييف استراتيجيات الشروح الزائفة في ديناميكيا من خلال تعليقات الطالب على البيانات التي تم إنشاؤها المصممة ذات المسمى الزائفة من كل لغة، وبالتالي تخفيف انتشار الأخطاء من التسميات الزائفة الصاخبة. تجارب واسعة النطاق على كل من مجموعات بيانات تسلسل متعددة اللغات متعددة اللغات متعددة اللغات في العالم، توضح تجريبيا فعالية التيتات.
وقد تبين أن نماذج اللغة متعددة اللغات المحددة تعمل بشكل جيد في العديد من اللغات لمجموعة متنوعة من مهام NLP المصب. ومع ذلك، من المعروف أن هذه النماذج تتطلب الكثير من البيانات التدريبية. وبالتالي يترك هذا نسبة كبيرة من لغات العالم لأنها نقص الموارد. عل
اوة على ذلك، فإن الدافع الرئيسي وراء هذه النماذج هو أن لغات الموارد المنخفضة تستفيد من التدريب المشترك بلغات الموارد العليا. في هذا العمل، نتحدى هذا الافتراض وتقديم المحاولة الأولى لتدريب نموذج لغة متعددة اللغات على لغات الموارد المنخفضة فقط. نظهر أنه من الممكن تدريب نماذج لغة متعددة اللغات التنافسية على أقل من 1 غيغابايت من النص. يغطي نموذجنا، يدعى Afriberta، 11 لغة إفريقية، بما في ذلك نموذج اللغة الأول لمدة 4 من هذه اللغات. التقييمات حول التعرف على الكيان المسمى وتصنيف النص يشير إلى 10 لغات تظهر أن النموذج لدينا تفوقت على mbert و xlm-rin عدة لغات وتنافسية للغاية بشكل عام. تشير النتائج إلى أن نهج بياناتنا الصغير بناء على لغات مماثلة قد يعمل في بعض الأحيان أفضل من التدريب المشترك على مجموعات البيانات الكبيرة مع لغات موارد عالية. يتم إصدار الرمز والبيانات والنماذج في https://github.com/keleog/afriberta.
قياس درجة التشابه بين زوج من الجمل بلغات مختلفة هو المطلوبة الأساسية لأساليب تضمين الجملة متعددة اللغات. يتكون التنبؤ بدرجة التشابه من مهمتين فرعيتين، وهو تقييم التغلب غير المباشر واسترجاع الجملة متعددة اللغات. ومع ذلك، فإن الأساليب التقليدية قد تناو
لت أساسا واحدة فقط من المهام الفرعية، وبالتالي أظهرت عروضا متحيزا. في هذه الورقة، نقترح طريقة جديدة وطريقة قوية لتضمين الجملة متعددة اللغات، مما يدل على تحسين الأداء على كلا المهام الفرعية، وبالتالي مما يؤدي إلى تنبؤات قوية لدرجات التشابه متعددة اللغات. تتكون الطريقة المقترحة من جزأين: لتعلم التشابه الدلالي من الجمل في اللغة المحورية، ثم تمديد الهيكل الدلالي المستفاد لغات مختلفة. لمحاذاة الهياكل الدلالية عبر لغات مختلفة، نقدم شبكة مدرس وطالب. تقطير شبكة المعلم معرفة اللغة المحورية لغات مختلفة من شبكة الطلاب. أثناء التقطير، يتم تحديث معلمات شبكة المعلم مع المتوسط البطيء المتحرك. جنبا إلى جنب مع التقطير وتحديث المعلمة، يمكن محاذاة الهيكل الدلالي لشبكة الطالب مباشرة عبر لغات مختلفة مع الحفاظ على القدرة على قياس التشابه الدلالي. وبالتالي، فإن طريقة التدريب متعددة اللغات تدفع تحسين الأداء في تقييم التشابه متعدد اللغات. يحقق النموذج المقترح أداء الحديث في تقييم التشابه متعدد اللغات لعام 2017 بالإضافة إلى مهام فرعية، التي تمتد التقييم المتشابهات لأول مرة 2017 و Tatoeba متعددة اللغات متعددة اللغات في 14 لغة.
نقترح طريقة لتقطير معنى المعنى اللاإرادي للغات من تشفير الجملة متعددة اللغات.عن طريق إزالة المعلومات الخاصة باللغة من التضمين الأصلي، نسترجع التضمين الذي يمثله بشكل كامل معنى الجملة.تعتمد الطريقة المقترحة فقط على Corpora الموازي دون أي شروح بشرية.يتي
ح Edgedding المعنى لدينا تقدير تشابه تشابه التشابه من خلال حساب التشابه الجيبائي البسيط.النتائج التجريبية على حد كلا تقدير الجودة للترجمة الآلية ومهام التشابه النصي من الدلالات المتبادلة - أن طريقتنا تتفوق باستمرار على خطوط الأساس القوية باستخدام التضمين الأصلي متعدد اللغات.تعمل طريقتنا باستمرار على تحسين أداء أي تشفير جملة متعددة اللغات المدربة مسبقا، حتى في أزواج لغة الموارد المنخفضة حيث تتوفر عشرات الآلاف فقط من أزواج الجملة بالتوازي.
في طرازات اللغة عبر اللغات، تعيش تمثيلات للعديد من اللغات المختلفة في نفس المساحة. هنا، نحقق في العوامل اللغوية وغير اللغوية التي تؤثر على محاذاة على مستوى الجملة في نماذج اللغة المحددة مسبقا بين 101 لغة و 5،050 زوج لغة. باستخدام LASTE BERT-القائم عل
ى BERT و LASER المستندة إلى BILSTM كنماذجنا، والكتاب المقدس كجورتنا، نحسب مقياسا يستند إلى المهمة لمحاذاة عبر اللغات في شكل أداء استرجاع BiteXT، بالإضافة إلى أربعة تدابير جوهرية لمساحة المتجهات المحاذاة والتزييف. ثم ندرس مجموعة من الميزات اللغوية واللغوية واللغوية والمتعلقة التدريبية كتنبؤ محتمل من مقاييس المحاذاة. تظهر نتائج تحليلاتنا أن اتفاقية ترتيب الكلمات والاتفاق في التعقيد المورفولوجي هي اثنتان من أقوى المتنبئ اللغوي للقلق. نلاحظ أيضا البيانات التدريبية في الأسرة كمؤشر أقوى من بيانات التدريب المحددة باللغة في جميع المجالات. نحن نتحقق من بعض النتائج اللغوية لدينا من خلال النظر في تأثير تجزئة مورفولوجية على محاذاة اللغة الإنجليزية - غير الأجنبية، بالإضافة إلى دراسة تأثير اتفاقية ترتيب الكلمات على ISomorphism ل 66 أزواج لغة الطلقة الصفرية من كائن مختلف. نحن نجعل البيانات والرمز تجاربنا متاحة للجمهور.
المحاكمة التكيفية في المجال، أي الاحتجاج المستمر غير المدعوم من نموذج اللغة على النص الخاص بالمجال، يحسن نمذجة النص لمهام المصب داخل المجال. تعتمد العديد من تطبيقات العالم الحقيقي على نص خاص بالمجال، على سبيل المثال العمل مع الوثائق المالية أو الطبية
الحيوية، وغالبا ما تحتاج هذه التطبيقات إلى دعم لغات متعددة. ومع ذلك، يمكن الحصول على بيانات محتملة متعددة اللغات متعددة اللغات واسعة النطاق لمثل هذه السيناريوهات، بسبب اللوائح أو التشريعات أو مجرد نقص في نص لغة ولغة خاصة. أحد الحلول هو تدريب نموذج واحد متعدد اللغات، والاستفادة من البيانات المتاحة بأكبر عدد ممكن من اللغات. في هذا العمل، نستكشف عن فوائد الاحتجاج بالتكيف مع التركيز على التكيف مع لغات متعددة داخل مجال معين. نقترح تقنيات مختلفة لتكوين شرطة المحاطات التي تمكن نموذج اللغة كلاهما خاص بالمجال وتعدد اللغات. التقييم على تسعة مجموعات بيانات خاصة بالمجال --- بالنسبة للاعتراف بالكيان الطبي الطبيعي وتصنيف الجملة المالية --- تغطي سبعة لغات مختلفة تظهر أن نموذج واحد خاص متعدد اللغات يمكن أن يتفوق على النموذج العام متعدد اللغات، ويؤدي بالقرب من نظيره أحادي التوتر. يحمل هذا البحث عبر اثنين من أساليب ما قبل الاحتجاج المختلفة، محاولات محول ومحاكاة تستند إلى النموذج الكامل.
أنظمة الحوار الشخصية هي خطوة أساسية نحو تفاعل أفضل للرشاشة. يعتمد عملاء الحوار الشخصي الموجودين على مجموعات بيانات المحادثة المصممة بشكل صحيح، والتي هي في الغالب أحادية طاهرية (على سبيل المثال، الإنجليزية)، والتي تحد بشكل كبير من استخدام وكلاء المحاد
ثة بلغات أخرى. في هذه الورقة، نقترح تمديد متعدد اللغات من الدردشة، أي XPersona. تتضمن DataSet لدينا محادثات الشخص في ست لغات مختلفة بخلاف اللغة الإنجليزية لتقييم وكلاء شخصيين متعدد اللغات. نقوم بتجربة خطوط الأساس المدربين متعدد اللغات واللغات المعلنة وتقييمها ضد نماذج خطوط الأنابيب أحادية الترجمة والترجمة باستخدام التقييم التلقائي والبشري. تظهر النتائج التجريبية أن النماذج المدربة متعددة اللغات تتفوق على خط أنابيب الترجمة وأنها على قدم المساواة مع النماذج الأولية، مع ميزة وجود نموذج واحد عبر لغات متعددة. من ناحية أخرى، فإن النماذج المدربة عبر اللغات الواحد من بين الفن تحقق أدنى أدنى للنماذج الأخرى، مما يدل على أن نمذجة المحادثة عبر اللغات هي مهمة صعبة. نأمل أن تسرع مجموعة بياناتنا وخطوط الأساسين بحثا في أنظمة حوار متعددة اللغات.