وصفنا تقديم نموذج Facebook متعدد اللغات إلى المهمة المشتركة WMT2021 على ترجمة الأخبار. نشارك في 14 لغة لغة: الإنجليزية من وإلى جمهورية التشيك، الألمانية، الهوسا، الأيسلاندية واليابانية والروسية والصينية. لتطوير النظم التي تغطي كل هذه الاتجاهات، نركز
على نماذج متعددة اللغات. نحن نستخدم البيانات من جميع المصادر المتاحة --- WMT، استخراج البيانات واسعة النطاق، وخلفه في المجال --- لإنشاء خطوط أساسية عالية الجودة ثنائية اللغة ومهدي اللغات. بعد ذلك، نقوم بالتحقيق في استراتيجيات لتحجيم حجم النموذج متعدد اللغات، بحيث يحتوي نظام واحد على قدر كاف لتمثيلات عالية الجودة لجميع اللغات الثمانية. تقدمنا النهائي لدينا هو مجموعة من نماذج الترجمة متعددة اللغات كثيفة ومتفجار، تليها Finetuning على بيانات الأخبار داخل المجال وإعادة تأهب القناة الصاخبة. مقارنة بتقديم الطلبات في العام السابق، قام نظامنا متعدد اللغات بتحسين جودة الترجمة على جميع الاتجاهات اللغوية، مع تحسين متوسط 2.0 بلو. في مهمة WMT2021، يحتل نظامنا المرتبة الأولى في 10 اتجاهات بناء على التقييم التلقائي.
تعرض هذه الورقة إطارا عصبي للوحدات المستقلة غير المستقلة، المستخدمة هنا لإدماج مصادر معرفة الرف مثل نماذج اللغة، ويكيوميكا، ومعلومات نقاط البيع، وعلاقات التبعية.يتم تطبيق كل مصدر معرف ككون مستقل يمكنه التفاعل وتبادل المعلومات مع مصادر المعرفة الأخرى.
نبلغ عن إثبات تجارب مفهوم للعديد من مهام تحليل المعنويات القياسية وإظهار أن مصادر المعرفة تتجاوز بفعالية دون تدخل.كحالة للاستخدام الثاني، نوضح أن الإطار المقترح مناسب لتحسين نماذج اللغة التي تشبهها بيرت حتى دون مساعدة مصادر المعرفة الخارجية.نقدم كل طبقة محول كوحدة منفصلة وإظهار تحسينات الأداء من هذا التكامل الصريح للمعلومات المختلفة المشفرة في طبقات المحولات المختلفة.
غالبا ما تستخدم أنظمة استرجاع المستندات على نطاق واسع أنماطين من نماذج الشبكة العصبية التي تعيش في طرفي مختلفين للحساب المشترك مقابل الدقة. النمط الأول هو طرازات تشفير مزدوجة (أو برج ثنائي)، حيث يتم حساب استعلام وتمثيلات المستند بشكل مستقل تماما ومجت
معة مع عملية منتج بسيطة DOT. النمط الثاني هو النماذج المتقاطعة، حيث يتم تسليم ميزات الاستعلام والوثائق في طبقة الإدخال ويستند جميع الحساب على تمثيل مستند الاستعلام المشترك. عادة ما تستخدم نماذج التشفير المزدوج للاسترجاع وإعادة التعتيم العميق، في حين عادة ما يتم استخدام نماذج الانتباه عبر الترتيب الضحل. في هذه الورقة، نقدم بنية خفيفة الوزن تستكشف هذه التكلفة المشتركة مقابل إيقاف تشغيل الدقة بناء على اهتمام متعدد ناقلات (MVA). نحن نقيم بدقة طريقتنا على مجموعة بيانات استرجاع MS-MARCO وإظهار كيفية التجارة الكفاءة من دقة الاسترجاع مع حساب مشترك وتكلفة تخزين المستندات دون اتصال. نظرا لأن تمثيل مستند مضغوط للغاية وسيتم تحقيق حساب مشترك غير مكلف من خلال مزيج من الرموز التجارية المستفادة التجمع والزواج العدواني. لدينا التعليمات البرمجية ونقاط التفتيش مفتوحة ومتاحة على Github.
تعتمد توصية العلامات على وظيفة الترتيب لعلامات Top-K أو طريقة توليد التشغيل التلقائي.ومع ذلك، فإن الطرق السابقة تهمل واحدة من اثنين من الخصائص المتضاربة التي يبدو أنها مرغوبة للغاية لمجموعة العلامة: مناسبا والاعتماد بين الاعتماد.في حين فشل نهج التصني
ف في معالجة الاعتماد بين العلامات بين العلامات عندما تكون في المرتبة، فإن النهج التلقائي فشل في اتخاذ أمر في الاعتبار لأنه مصمم لاستخدام العلاقات المتسلسلة بين الرموز.نقترح طريقة توليد تسلسل غبيهة لتوصية العلامات، حيث يتم إنشاء العلامة التالية مستقلة عن ترتيب العلامات التي تم إنشاؤها وترتيب علامات الحقيقة الأرضية التي تحدث في بيانات التدريب.النتائج التجريبية على نطيفين مختلفين، إنستغرام ومكدس تجاوز، تبين أن طريقتنا متفوقة بشكل كبير على النهج السابقة.
لقد أظهر العمل السابق أن أنظمة التسجيل الآلي للمقالات، ولا سيما أنظمة التعلم في الجهاز، ليست قادرة على تقييم جودة المقالات، ولكنها تعتمد على طول المقال، وهو عامل غير ذي صلة لكتابة الكفاءة.في هذا العمل، نوضح أولا أن الأنظمة الحديثة، أنظمة التسجيل العص
بي العصبي الحديثة، قد تتأثر أيضا بالارتباط بين طول المقال وعشرات في مجموعة بيانات قياسية.في تقييمنا، يظهر نموذج عصبي بسيط للغاية الأداء الحديث في مجموعة البيانات القياسية.للنظر في محتوى المقالات دون تناول طول المقالات في الاعتبار، نقدم نموذج عصبي بسيط تقييم تشابه المحتوى بين مقال الإدخال والمقالات تعيين درجات مختلفة.يحقق هذا النموذج العصبي أداء مماثل لدولة الفن على مجموعة بيانات قياسية وكذلك في مجموعة بيانات ثانية.تشير النتائج التي توصلنا إليها إلى أن أنظمة تسجيل المقالات العصبية يجب أن تنظر في خصائص مجموعات البيانات للتركيز على جودة النص.
من أجل الحفاظ على معلومات ترتيب الكلمات في إعداد غير تلقائي، تميل هياكل المحولات إلى تضمين المعرفة الموضعية، من خلال (على سبيل المثال) إضافة الترميزات الموضعية إلى Tunken Ageddings. تم اقتراح العديد من التعديلات على الترميزات الموضعية الجيبية المستخد
مة في بنية المحولات الأصلية؛ وتشمل هذه، على سبيل المثال، فصل ترميزات الموضع و Adgeddings الرمز المميز، أو تعديل أوزان الاهتمام مباشرة على المسافة بين أزواج Word. نوضح أولا أن هذه التعديلات تميل إلى تحسين نماذج اللغة أحادية الأونلينغ، لا ينتج أي منها نماذج أفضل لغات متعددة اللغات. ثم نرد على ذلك هو: تم تصميم الترميزات الجيبية بشكل صريح لتسهيل التركيب عن طريق السماح بتوقعات خطية على خطوات الوقت التعسفي. هناك فروق أعلى في توزيعات التدريب متعددة اللغات تتطلب ضغطا أعلى، وفي هذه الحالة، تصبح التركيزية لا غنى عنها. تميل الترميزات الموضعية المطلقة (E.G.، في Mbert) إلى تقريبية Abitdings الجيبية في إعدادات متعددة اللغات، لكن هياكل الترميز الموضعي أكثر تعقيدا تفتقر إلى التحيز الاستقرائي لتعلم المحاذاة عبر اللغات بشكل فعال. بمعنى آخر، في حين تم تصميم الترميزات الجيبية الموضعية لتطبيقات أحادية الأونلينغ، فهي مفيدة بشكل خاص في نماذج لغة متعددة اللغات.
كما تم كشف النقاب عنها أن نماذج اللغة المدربة مسبقا (PLMS) هي إلى حد ما قادر على الاعتراف بالمفاهيم النحوية باللغة الطبيعية، فقد تم بذل الكثير من الجهد لتطوير طريقة لاستخراج التقييم الكامل (الثنائي) من PLMS دون تدريب محللين منفصلين. نحن نحسن على هذا
النموذج من خلال اقتراح طريقة قائمة على الرسم البياني القائمة على الرسم البياني وتقنية فرعية فعالة من أعلى كوب. علاوة على ذلك، نوضح أنه يمكننا توسيع نطاق تطبيق النهج في إعدادات متعددة اللغات. على وجه التحديد، نظير على أنه من خلال تطبيق طريقتنا على مقدمي اللغات متعددة اللغات، يصبح من الممكن أن يحفز على التقييم غير التافه من الجمل من تسع لغات بطريقة متكاملة وغير مرغقة بلغة، وتحصل على أداء متفوقة أو مماثلة لتلك الخاصة ب PCFGS غير المعروضة. نحن نتحقق أيضا من أن نهجنا قوي للتحويل عبر اللغات. أخيرا، نقدم التحليلات على الأعمال الداخلية لطرأتنا. على سبيل المثال، نكتشف رؤوس الانتباه العالمية التي هي حساسة باستمرار للحصول على معلومات النحوية بغض النظر عن لغة الإدخال.
طبقات محول خفيفة الوزن، وحدات يمكن إدراجها بين طبقات المحولات. يستكشف العمل الأخير باستخدام مثل هذه الطبقات للترجمة الآلية العصبية (NMT)، لتكييف النماذج المدربة مسبقا إلى مجالات جديدة أو أزواج لغة، والتدريب فقط مجموعة صغيرة من المعلمات لكل إعداد جديد
(زوج لغة أو مجال). في هذا العمل، ندرس تكوين محولات اللغة والمجال في سياق الترجمة الآلية. نحن نهدف إلى الدراسة، 1) التكيف الفعال مع المعلمة إلى مجالات متعددة ولغات في وقت واحد (سيناريو الموارد الكاملة) و 2) نقل عبر اللغات في المجالات حيث تكون البيانات الموازية غير متوفرة لأزواج لغة معينة (سيناريو الموارد الجزئية). نجد أنه في سيناريو الموارد الجزئي مزيجا ساذجا من محولات محولات خاصة بالمجال وغالبا ما ينتج عن النسيان الكارثي باللغات المفقودة. ندرس طرق أخرى للجمع بين المحولات لتخفيف هذه المشكلة وتعظيم التحويل عبر اللغات. من خلال أفضل مجموعات محول لدينا، نحصل على تحسينات من 3-4 بلو في المتوسط لغات المصدر التي لا تملك بيانات داخل المجال. بالنسبة للغات المستهدفة دون بيانات داخل المجال، نحقق تحسن مماثل عن طريق الجمع بين المحولات بالترجمة الخلفي. تتوفر مواد تكميلية في https://tinyurl.com/r66stbxj.
تدابير السيكومترية للقدرة والمواقف والتصورات والمعتقدات أمر حاسم لفهم سلوك المستخدم في سياقات مختلفة بما في ذلك الصحة والأمن والتجارة الإلكترونية والتمويل. تقليديا، تم قياس الأبعاد السيكومترية وجمعها باستخدام الأساليب المستندة إلى المسح. استنتاج مثل
هذه البنيات من النص الذي تم إنشاؤه من قبل المستخدم قد يسمح بجمع وتحليلات غير مزعجة في الوقت المناسب. في هذه الورقة، نقوم ببذل جهودنا لبناء كوربوس لمعالجة اللغة الطبيعية السيكومترية (NLP) المتعلقة بالأبعاد الهامة مثل الثقة والقلق والحساب ومحو الأمية، في مجال الصحة. نناقش عملية لدينا متعددة الخطوات لمحاذاة نص المستخدم بنود الاستجابة المستندة إلى المسح وتوفير نظرة عامة على الاختبار الناتج والتي تشمل التدابير النفسية القائمة على المسح والاستطلاع على النص الذي تم إنشاؤه من قبل المستخدم من 8،502 المساواة. يشمل TestBed أيضا معلومات سكانية تم الإبلاغ عنها ذاتيا، بما في ذلك العرق والجنس والعمر والدخل والتعليم - مما يوفر فرصا لقياس التحيز وأساليب تصنيف النص. نبلغ عن نتائج أولية عن استخدام النص للتنبؤ / تصنيف تسميات استجابة المسح للمستخدمين - وعلى مدى نزاهة هذه النماذج. ونناقش أيضا الآثار المهمة لعملنا ونتيجة إلى اختبار بحث NLP في المستقبل بشأن الحروض النفسية والإنصاف.
اكتسبت توصية الأخبار التلقائية الكثير من الاهتمام من المجتمع الأكاديمي والصناعة. تكشف الدراسات الحديثة أن مفتاح هذه المهمة يكمن في تعلم التمثيل الفعال في كل من الأخبار والمستخدمين. تعمل الأعمال الحالية عادة عنوان الأخبار والمحتوى بشكل منفصل مع إهمال
تفاعلها الدلالي، وهو غير كاف من أجل فهم نص الأخبار. إلى جانب ذلك، ترميز النماذج السابقة سجل تصفح المستخدم دون الاستفادة من الارتباط الهيكلي لأخبار استعراض المستخدمين لتعكس اهتمامات المستخدم صراحة. في هذا العمل، نقترح إطار توصية أخبار يتكون من ترميز الأخبار التعاونية (CNE) وترميز المستخدم الهيكلية (SUE) لتعزيز تعلم الأخبار وتمثيل المستخدم. CNE مجهزة LSTMS ثنائي الاتجاه ترميز عنوان الأخبار والمحتوى التعاوني مع الوحدات النمطية الشاملة والاهتمام لمعرفة تمثيل الأخبار الدلالية التفاعلية. تستخدم SUE الشبكات التنافسية الرسمية لاستخراج السمات الهيكلية الكتلة لسجل المستخدم، تليها وحدات الانتباه بين الكتلة والإنتباه إلى التعلم لتعلم تمثيلات فائدة المستخدم الهرمية. نتائج التجربة على DataSet العقل التحقق من صحة فعالية نموذجنا لتحسين أداء توصية الأخبار.