بعد أداء متزايد لأنظمة الترجمة الآلية العصبية، تتم الآن دراسة نموذج استخدام البيانات المترجمة تلقائيا للتكيف عبر اللغات في العديد من المجالات المعمارية.لا تزال القدرة على شرح المشروع بدقة، ومع ذلك، فإن هناك مشكلة في مهام علامات التسلسل حيث يجب توقع ا
لتوضيح بالمسافة الصحيحة.بالإضافة إلى ذلك، عندما تعني المهمة النص الناتج عن المستخدم صاخبة، يمكن أن تتأثر جودة الترجمة والترجمة التوضيحية.في هذه الورقة نقترحنا معالجة تسلسل تسلسل متعدد اللغات مع طريقة محاذاة سبين جديدة وتطبيقها على استخراج هدف الرأي من مراجعات العملاء.نظرا لأن توفير الاستدلال المناسبة، فإن البيانات المترجمة مع الإسقاط التلقائي التلقائي من المستوى التلقائي يمكن أن تسفر عن تحسينات التكيف عبر اللغات مقارنة بنقل الرصاص الصفر، وتعزيز البيانات مقارنة بناس خطي متعدد اللغات.
يمكن أن تسترجع إمكانات المطابقة الدلالية لاسترجاع المعلومات العصبية مشاكل المرادفات والبوليزيميمي من الأساليب الرمزية.ومع ذلك، فإن التمثيلات الكثيفة النماذج العصبية أكثر ملاءمة لإعادة الترتيب، بسبب عدم كفاءةها.تمثيلات متفرق، إما في شكل رمزي أو كامن،
أكثر كفاءة مع مؤشر مقلوب.أخذ مزايا التمثيلات المتناثرة والكثيفة، نقترح مخطط تمثيل ثنائي الأبعاد للغاية (UHD) مجهز بمرضية يمكن السيطرة عليها مباشرة.سعة UHD الكبيرة والحد الأدنى من الضوضاء والتدخل بين الأبعاد تسمح بالتمثيل الثنائي، والتي تعتبر فعالة للغاية للتخزين والبحث.المقترح أيضا طريقة دلامية، حيث يتم اختيار / دمج الأشرطة من طبقات متعددة من بيرت / دمجها لتمثيل الجوانب اللغوية المتنوعة.نقوم باختبار نماذجنا باستخدام سيارة MS MARCO و TREC، والتي تبين أن نماذجنا تفوقت على نماذج غير متفرقة أخرى.
المحولات هي وحدات خفيفة الوزن تسمح بضبط النماذج الدقيقة التي يتمتع بها المعلمة. تم اقتراح محولات اللغة والمهمة المتخصصة مؤخرا لتسهيل التحويل عبر اللغات للنماذج المحددة متعددة اللغات (Pfeiffer et al.، 2020b). ومع ذلك، يتطلب هذا النهج تدريب محول لغة من
فصل لكل لغة ترغب في الدعم، مما قد يكون غير صحيح لغات مع بيانات محدودة. الحل البديهي هو استخدام محول لغة ذات صلة لتنوع اللغات الجديدة، لكننا نلاحظ أن هذا الحل يمكن أن يؤدي إلى الأداء دون الأمثل. في هذه الورقة، نهدف إلى تحسين متانة المحولات اللغوية باللغات غير المكشوفة دون تدريب محولات جديدة. نجد أن الكشف عن محولات متعددة اللغات متعددة يجعل النموذج الدقيق أكثر قوة أكثر بكثير من أصناف اللغة الأخرى غير المدرجة في هذه المحولات. بناء على هذه الملاحظة، نقترح Entropy Minimized Entermble of Adrapters (EMEA)، وهي طريقة تعمل على تحسين أوزان مجموعة محولات اللغة المحددة مسبقا لكل جملة اختبار عن طريق تقليل انتروبيا من تنبؤاتها. تبين التجارب في ثلاث مجموعات متنوعة من الأصناف اللغوية أن طريقتنا تؤدي إلى تحسينات كبيرة على كل من الاعتراف الكياري المسمى ووضع علامات جزء من الكلام في جميع اللغات.
في إجابة سؤال مفتوحة بسيطة (QA)، أصبح استرجاع كثيف أحد الأساليب القياسية لاستعادة المقاطع ذات الصلة إلى استنتاج إجابة.في الآونة الأخيرة، حققت الاسترجاع الكثيف أيضا نتائج أحدث النتائج في هفور تشاينا، حيث يلزم تجميع المعلومات من أجزاء متعددة من المعلوم
ات والمناسبات عليها.على الرغم من نجاحها، فإن أساليب استرجاع كثيفة هي مكثفة حسابية، مما يتطلب تدريب GPUs المتعدد للتدريب.في هذا العمل، نقدم نهجا هجينا (معجميا وتكثيفا) تنافسية للغاية مع نماذج استرجاع كثيفة الحديث، مع مطالبة موارد حسابية أقل بكثير.بالإضافة إلى ذلك، نحن نقدم تقييم متعمق لأساليب استرجاع كثيفة على إعدادات الموارد الحاسوبية المحدودة، وهو شيء مفقود من الأدبيات الحالية.
لقد ظهرت وحدات محول كوسيلة فعالة من المعلمات لتخصص التشفير المسبق على المجالات الجديدة. استفادت محولات متعددة اللغات بشكل كبير (MMTS) بشكل خاص من التدريب الإضافي للمحولات الخاصة باللغة. ومع ذلك، فإن هذا النهج ليس قابلا للتطبيق بالنسبة للغالبية العظمى
من اللغات، بسبب القيود في حجم الشقوق أو حساب الميزانيات. في هذا العمل، نقترح جنون G (جيل محول متعدد اللغات)، الذي يولد محولات لغة محلية من تمثيلات اللغة بناء على الميزات النموذجية. على عكس العمل السابق، يتيح نهجنا المجنون بوقتنا وفعال الفضاء (1) تبادل المعرفة اللغوية عبر اللغات و (2) استنتاج صفرية عن طريق توليد محولات لغة للغات غير المرئية. نحن نقيم بدقة جنون G في النقل الصفر - نقل عبر اللغات على علامة جزء من الكلام، وتحليل التبعية، والاعتراف كيان المسمى. أثناء تقديم (1) تحسين كفاءة ضبط الدقيقة (1) من خلال عامل حوالي 50 في تجاربنا)، (2) ميزانية معلمة أصغر، و (3) زيادة تغطية اللغة، لا تزال جنون جي تنافسية مع أساليب أكثر تكلفة للغة تدريب محول محدد في جميع اللوحة. علاوة على ذلك، فإنه يوفر فوائد كبيرة لغات الموارد المنخفضة، لا سيما في مهمة NER في لغات أفريقية منخفضة الموارد. أخيرا، نوضح أن أداء نقل جنون جي يمكن تحسينه عبر: (1) التدريب متعدد المصادر، أي، من خلال توليد ومجتمعة محولات لغات متعددة مع بيانات التدريب الخاصة بمهام المهام المتاحة؛ و (2) عن طريق مزيد من ضبط محولات جنون G للغات ولغات مع بيانات أحادية الأونلينغ.
تظهر النماذج المسبقة للتدريب المستندة إلى المحولات مثل Bert و Electra حول مجموعة من كورسيا العربية، التي أظهرها كل من أرابيرت وأريكيكترا، نتيجة مثيرة للإعجاب في مهام المصب.ومع ذلك، فإن نماذج اللغة المستندة إلى المحولات قبل التدريب هي باهظة الثمن، خاص
ة بالنسبة للنماذج الكبيرة.في الآونة الأخيرة، تناول محول القمع التكرار المتسلسل داخل بنية المحولات من خلال ضغط تسلسل الدول المخفية، مما يؤدي إلى انخفاض كبير في تكلفة ما قبل التدريب.تدرس هذه الورقة تجريبية أداء وكفاءة بناء نموذج اللغة العربية مع محول القمع وهناك هدف Electra.نجد أن نموذجنا يحقق نتائج أحدث النتائج على العديد من المهام المصب العربية على الرغم من استخدام موارد حسابية أقل مقارنة بالنماذج الأخرى القائمة على بيرت.
تتناول هذه الورقة تحدي الكفاءة في بحث العمارة العصبية (NAS) من خلال صياغة المهمة كملمة في التصنيف.تتطلب الطرق السابقة العديد من أمثلة تدريبية لتقدير الأداء الدقيق للبايكيين، على الرغم من أن الهدف الفعلي هو العثور على التمييز بين المرشحين "والسيئين".ن
حن هنا لا نلجأ إلى تنبؤ الأداء.بدلا من ذلك، نقترح طريقة تصنيف الأداء (Ranknas) عبر الترتيب الزوجي.إنه يتيح البحث بالهندسة المعمارية الفعالة باستخدام أمثلة تدريبية أقل بكثير.علاوة على ذلك، نقوم بتطوير طريقة اختيار العمارة لتقليم مساحة البحث والتركيز على المرشحين الأكثر واعدة.تظهر تجارب واسعة على مهام ترجمة الآلات ونمذجة اللغة أن الركوبين الراهن يمكنهم تصميم بهيئات عالية الأداء أثناء كونه أوامر من حجم أسرع من أنظمة NAS-Art-Art.
نظرا للجهود المعجدة والإدراكية المتورطة في التوليد اليدوي من تعليق واحد لكل إدخال الصورة / الفيديو، فإن موارد الشروح البشرية محدودة للغاية لتسمية المهام. نحن نحدد كفاءة الموارد اللغوية باعتبارها تصل إلى نفس الأداء مع التوضيحية المشروحة أقل لكل مدخلات
. ندرس أولا تدهور أداء نماذج التسمية التوضيحية في إعدادات موارد لغة مختلفة. يظهر تحليل نماذج التسمية التوضيحية مع خسارة SC أن تدهور الأداء ناتج عن تقدير المكافأة بشكل متزايد للمكافآت والأساس مع عدد أقل من الموارد اللغوية. لتخفيف هذه المشكلة، نقترح تقليل تباين الضوضاء في الأساس عن طريق تعميم المقارنة الزوجية الفردية في فقدان SC واستخدام مقارنات الزوجية المتعددة المتعمدة. يقيس المقارنة الزوجية المعممة (GPC) الفرق بين درجات التقييم التوضيحتين فيما يتعلق بالإدخال. وإظهار تجريبيا، نظرا لأن النموذج الذي تم تدريبه مع فقدان GPC المقترح فعالا على مورد اللغة وتحقق أداء مماثل مع النماذج الحديثة على MSCOC باستخدام نصف موارد اللغة فقط. علاوة على ذلك، تتفوق نموذجنا بشكل كبير على النماذج الحديثة على مجموعة بيانات تعليق الفيديو التي تحتوي على علامة تعليق واحدة فقط لكل إدخال في مجموعة التدريب.
تعلم نماذج اللغة العصبية غير المعلمة (NLMS) التوزيعات التنبؤية للنص باستخدام مصدر بيانات خارجي، والذي يسمح لهم بالتعلم من خلال حفظ مخطط Datapooints التدريبي بشكل صريح.في حين أن هذه النماذج فعالة، فإن هذه النماذج غالبا ما تتطلب استرجاع من مؤشرات بيانا
ت كبيرة في وقت الاختبار، مما يزيد بشكل كبير من تسليم الاستدلال، وبالتالي يحد من نشر NLMS غير المعلم في التطبيقات العملية.في هذه الورقة، نأخذ نموذج لغة Geature K-Neave المقترح مؤخرا كمثال، استكشاف الطرق لتحسين كفاءتها على طول الأبعاد المختلفة.تبين التجارب في معيار Wikitext-103 القياسي ومجموعات بيانات التكيف عن المجال أن أساليبنا قادرة على تحقيق ما يصل إلى سرعة 6X في سرعة الاستدلال مع الاحتفاظ بأداء مماثل.قد يوفر التحليل التجريبي الذي نقدمه مبادئ توجيهية للبحث في المستقبل يسعى إلى تطوير أو نشر أكثر كفاءة غير رسمية غير رسمية.
بعد نجاح اهتمام DOT-Product في المحولات، تم اقتراح تقريب عديدة مؤخرا لمعالجة تعقيدها التربيعي فيما يتعلق بطول الإدخال. في حين أن هذه المتغيرات هي الذاكرة وتحسب كفاءة، فمن غير الممكن استخدامها مباشرة مع نماذج اللغة المدربة مسبقا مسبقا تدربت باستخدام ا
هتمام الفانيليا، دون مرحلة ما قبل التدريب التصحيحية باهظة الثمن. في هذا العمل، نقترح تقريب بسيط ولكن دقيق للغاية لاهتمام الفانيليا. نقوم بمعالجة الاستعلامات في قطع، ولكل عملية استعلام، حساب أعلى الدرجات * K * فيما يتعلق بالمفاتيح. يوفر نهجنا عدة مزايا: (أ) استخدام ذاكرةه خطي في حجم الإدخال، على غرار متغيرات الانتباه الخطي، مثل أداء و RFA (B) هو استبدال انخفاض في انتباه الفانيليا الذي لا يتطلب أي تصحيحية -إجراء (ج) يمكن أن يؤدي أيضا إلى وفورات كبيرة في الذاكرة في طبقات الأعلاف إلى الأمام بعد إلقاءها في إطار القيمة المألوفة ذات القيمة الرئيسية. نحن نقيم جودة أعلى - * K * تقريب طبقات الاهتمام متعدد الأطراف على أساس الساحة الطويلة المدى، وللطبقات التغذية من T5 و unifectqa على مجموعات بيانات QA متعددة. نظرا لأن نهجنا يؤدي إلى الدقة التي تظل مما يقرب من انتباه الفانيليا في إكمال متعددة بما في ذلك التدريب من الصفر والضبط الناعم والاستدلال بالرصاص الصفر.