في الآونة الأخيرة، جادل بأن نماذج تشفير التشفير يمكن أن تكون أكثر تفسيرا عن طريق استبدال وظيفة SoftMax بالاهتمام بمتغيراتها المتناقضة. في هذا العمل، نقدم رواية، وسيلة بسيطة لتحقيق Sparsity في الانتباه: استبدلنا تنشيط SoftMax مع Relu، وإظهار أن Sparsi
ty يخرج بشكل طبيعي من مثل هذه الصياغة. يتم تحقيق استقرار التدريب بطبقة تطبيع إما إما بتهفية متخصصة أو وظيفة Gating إضافية. إن نموذجنا، الذي نسميه الاهتمام الخطي المعتمد (RELA)، سهل التنفيذ وأكثر كفاءة من آليات الاهتمام المتناقش سابقا سابقا. نحن نطبق RELLA إلى المحولات وإجراء تجارب على خمس مهام ترجمة آلية. recra تحقق أداء الترجمة مماثل للعديد من خطوط الأساس القوية، مع سرعة التدريب وتشكيل سرعة مماثلة للاهتمام الفانيليا. يوضح تحليلنا أن RELLA تقدم معدل مرتفع للغاية وتنوع الرأس، والاهتمام الصافي الناجم عن تحقيق دقة أفضل فيما يتعلق بمحاذاة الكلمة المستهدفة المصدر من النماذج القائمة على Softmax مؤخرا. تتعلم رؤساء RELA بشكل فعال أيضا حضور أي شيء (I.E. أطفئ ") لبعض الاستفسارات، وهو أمر غير ممكن مع بدائل Softmax Sparsified.
يعتمد نموذج الترجمة المحول على آلية الاهتمام المتعدد الرأس، والتي يمكن توازتها بسهولة.تقوم شبكة الاهتمام المتعددة بالاهتمام بأداء وظيفة اهتمام المنتج DOT-Product المعزز بالتوازي، مما تمكن من تمكين النموذج من خلال حضور المعلومات المشتركة إلى معلومات م
ن مختلف الفئات الفرعية التمثيلية في مواقف مختلفة.في هذه الورقة، نقدم نهجا لتعلم اهتمام استرجاع صعب حيث يحضر رأس الاهتمام فقط إلى رمز واحد في الجملة بدلا من جميع الرموز.وبالتالي، يمكن استبدال مضاعفة المصفوفة بين احتمالات الاهتمام وتسلسل القيمة في إيلاء اهتمام منتجات DOT-Product القياسية القياسية بعملية استرجاع بسيطة وفعالة.نظظ أن آلية اهتمام استرجاعها الثابت لدينا هي 1.43 مرة أسرع في فك التشفير، مع الحفاظ على جودة الترجمة على مجموعة واسعة من مهام الترجمة الآلية عند استخدامها في شبكات فك تشفير الذات والانتباه.
في هذا العمل، نقوم بإجراء تحقيق شامل على إحدى المركزيات من أنظمة الترجمة الآلية الحديثة: آلية اهتمام مفوض الترم التشفير.بدافع من مفهوم محاذاة الدرجة الأولى، فإننا نقدم آلية الاهتمام (الصليب) من خلال اتصال متكرر، مما يسمح بالوصول المباشر إلى قرارات ال
انتباه / المحاذاة السابقة.نقترح عدة طرق لتضمين مثل هذا التكرار في آلية الاهتمام.التحقق من أدائها عبر مهام ترجمة مختلفة نستنتج أن هذه الملحقات والتبعية ليست مفيدة لأداء الترجمة من بنية المحولات.
يؤثر البحث على الإنترنت على إدراك الناس في العالم، وبالتالي فإن التخفيف من التحيزات في نتائج البحث ونماذج التعلم العادلة أمر حتمي للجيدة الاجتماعية.نحن ندرس تحيز جنساني فريد من نوعه في البحث في الصورة في هذا العمل: غالبا ما تكون صور البحث في كثير من
الأحيان عن النوع الاجتماعي لاستفسارات اللغة الطبيعية المحايدة بين الجنسين.نحن تشخيص طرازات بحث عن الصور النموذجية، النموذج المتخصص المدرب على مجموعات البيانات داخل المجال ونموذج التمثيل المعمم مسبقا على صورة واسعة بيانات النصية عبر الإنترنت.كلا النموذجين يعانون من التحيز بين الجنسين الحاد.لذلك، نقدم اثنين مناهج ديوان رواية: طريقة أخذ العينات المعدة المعالجة لمعالجة قضية عدم التوازن بين الجنسين للنماذج التدريبية، وميزة ما بعد المعالجة هي قاعدة أسلوب لقطة على المعلومات المتبادلة إلى تمثيلات Debias متعددة الوسائط للنماذج المدربة مسبقا.تجارب واسعة على معايير MS-COCO و FLICKR30K تظهر أن أساليبنا تقلل بشكل كبير من التحيز بين الجنسين في نماذج البحث عن الصور.
حجم المفردات عبارة عن خيار تصميم مركزي في نماذج اللغة المحددة مسبقا كبيرة، فيما يتعلق بمتطلبات الأداء والذاكرة.عادة، يتم استخدام خوارزميات تكتيح الكلمات الفرعية مثل ترميز زوج البايت والصفحة.في هذا العمل، نحقق في توافق التوصيلات الخاصة بمساحات التضمين
الثابتة والسياق متعددة اللغات واقتراح تدبير يعكس توافق التوصيلات عبر اللغات.هدفنا هو منع التوصيلات غير المتوافقة، على سبيل المثال، النبيذ "(مستوى الكلمات) باللغة الإنجليزية مقابل V. (مستوى الحرف) باللغة الفرنسية، مما يجعل من الصعب تعلم تمثيلات دلالية جيدة متعددة اللغات.نظهر أن تدبير التوافق لدينا يسمح بمصمم النظام بإنشاء مفدين عبر اللغات المتوافقة - Desideratum الذي تم إهماله حتى الآن في نماذج متعددة اللغات.
اجتذبت التحقق من الحقائق التلقائي اهتماما بالبحوث الحديثة باعتباره نشر متزايد للتضليل على منصات وسائل التواصل الاجتماعي.تقدم المهمة المشتركة الحميرة معيارا للتحقق من الحقائق، حيث يتم تحدي النظام للتحقق من المطالبة المعينة باستخدام العناصر الواضحة الم
ستخرجة من وثائق ويكيبيديا.في هذه الورقة، نقترح نظامنا الثالث الذي يتكون نظامنا الثالث من ثلاثة مراحل يتكون من استرجاع المستندات، واسترجاع العناصر، والاستدلال الحكم للمهمة المشتركة الحمية.من خلال النظر في أهمية السياق في مهمة استخراج الحقائق والتحقق، فإن نظامنا يحقق 0.29 درجة حمامة على مجموعة التطوير و 0.25 درجة حمامة على مجموعة الاختبار العمياء، سواء تتفوق على خط الأساس الحمير.
إن تأطير مقالة إخبارية تعني تصوير الحدث المبلغ عنها من منظور محدد، على سبيل المثال، من منظور اقتصادي أو صحي. Reframing وسائل لتغيير هذا المنظور. اعتمادا على الجمهور أو الحضور، يمكن أن تصادف REFRIMING ضرورية لتحقيق التأثير المرغوب على القراء. يرتبط Re
framing بتكييف الأسلوب والشاعر، والتي يمكن معالجة تقنيات توليد النص العصبي. ومع ذلك، فإن الأمر أكثر تحديا لأن تغيير الإطار يتطلب إعادة كتابة الجمل بأكملها بدلا من عبارات واحدة. في هذه الورقة، ندرس كيفية إعادة صياغة الجمل في مقالات إخبارية مع الحفاظ على تماسكها إلى السياق. نتعامل مع REMREMING كمركز ملء على مستوى الجملة الذي نربط النماذج العصبية على كوربوس موجود للإطار الوسائط. لتوجيه التدريب، نقترح ثلاث استراتيجيات: محاكمة اللغة المؤطرة، والحفاظ على الكيانات المسماة، والتعلم الخصم. نقوم بتقييم النماذج المعنية تلقائيا وتدويا من أجل اتساق الموضوع والتماسك والتعداد الناجح. تشير نتائجنا إلى أن إنشاء نص مؤطر بشكل صحيح يعمل بشكل جيد ولكن مع المفاضلات.
اكتسبت المهام المورفولوجية شعبية لائقة داخل مجتمع NLP في السنوات الأخيرة، حيث توفر مجموعات بيانات كبيرة متعددة اللغات تحليلا مورفولوجي للكلمات، إما في أو خارج السياق. ومع ذلك، فإن الافتقار إلى تعريف لغوي واضح للكلمات ديطات العمل التلقيح غير مكتمل واج
ب في التناقضات، لا سيما عبر اللغوية. في هذا العمل، نقوم بتوسيع الانعكاسات المورفولوجية للكلمات لإنقاذ الجمل لتوفير عالمية حقيقية منفصلة عن تقاليد هربيا لاستخدام المساحة البيضاء. للسماح بإلقاء التوضيح عن انعطاف الجملة، نحدد مخططا شرحا مورفولوجي بواسطة مجموعة ثابتة من ميزات الانهيار. نقدم مجموعة بيانات صغيرة عبر اللغوية بما في ذلك جمل بسيطة نصف تم إنشاؤها بشكل دائم في 4 لغات متنوعة من الناحية النموذجية المشروح وفقا لمخططنا المقترح، وإظهار أن مهمة إعادة انتقالة يصعب بشكل كبير ولكن تغيير النطاق من الكلمات إلى محددة بشكل جيد الجمل تسمح الواجهة مع نماذج اللغة السياقية.
تكمن الشبكة العصبية الباهظة الثمنية والذاكرة الكثيفة وراء النجاح الأخير لتعلم تمثيل اللغة. نقل المعرفة، وهي تقنية رئيسية لنشر مثل هذا النموذج اللغوي الواسع في البيئات النادرة من الموارد، ينقل المعرفة المتعلقة بتمثيلات الكلمات الفردية المستفادة دون قي
ود. في هذه الورقة، مستوحاة من الملاحظات الأخيرة أن تمثيلات اللغة في وضع معرفة نسبيا ولديها معرفة أكثر دلالة ككل، نقدم هدف تقطير معارف جديد لتعلم تمثيل اللغة الذي ينقل المعرفة السياقية عبر نوعين من العلاقات عبر الإنترنت: علاقة كلمة وطبقة تحول العلاقة. على عكس تقنيات التقطير الأخيرة الأخرى لنماذج اللغة، فإن تقطيرنا السياقي ليس لديه أي قيود على التغييرات المعمارية بين المعلم والطالب. نحن نقوم بالتحقق من فعالية طريقتنا حول المعايير الصعبة لمهام فهم اللغة، ليس فقط في بنية الأحجام المختلفة ولكن أيضا بالاشتراك مع Dynabert، طريقة تشذيب الحجم التكيفي المقترح مؤخرا.
كل من قضايا أوجه القصور في البيانات والاتساق الدلالي مهم لتعزيز البيانات.معظم الطرق السابقة تعالج القضية الأولى، ولكن تجاهل المرحلة الثانية.في حالات تحليل المعنويات المستندة إلى جانب الجسيم، قد يغير انتهاك القضايا المذكورة أعلاه قطبية الجانب والمشاعر
.في هذه الورقة، نقترح نهج تكبير بيانات الحفاظ على دلالات - من خلال النظر في أهمية كل كلمة في تسلسل نصي وفقا للجوانب والمشاعر ذات الصلة.ثم نحل محل الرموز غير المهتمات مع استراتيجيتين استبدال دون تغيير قطبية مستوى الجانب.يتم تقييم نهجنا على العديد من مجموعات بيانات تحليل المعنويات المتاحة للجمهور وسيناريوهات التنبؤ في مجال الأسهم / المخاطر في العالم الحقيقي.تظهر النتائج التجريبية أن منهجيةنا تحقق أداء أفضل في جميع مجموعات البيانات.