ترغب بنشر مسار تعليمي؟ اضغط هنا

بعد نجاح اهتمام DOT-Product في المحولات، تم اقتراح تقريب عديدة مؤخرا لمعالجة تعقيدها التربيعي فيما يتعلق بطول الإدخال. في حين أن هذه المتغيرات هي الذاكرة وتحسب كفاءة، فمن غير الممكن استخدامها مباشرة مع نماذج اللغة المدربة مسبقا مسبقا تدربت باستخدام ا هتمام الفانيليا، دون مرحلة ما قبل التدريب التصحيحية باهظة الثمن. في هذا العمل، نقترح تقريب بسيط ولكن دقيق للغاية لاهتمام الفانيليا. نقوم بمعالجة الاستعلامات في قطع، ولكل عملية استعلام، حساب أعلى الدرجات * K * فيما يتعلق بالمفاتيح. يوفر نهجنا عدة مزايا: (أ) استخدام ذاكرةه خطي في حجم الإدخال، على غرار متغيرات الانتباه الخطي، مثل أداء و RFA (B) هو استبدال انخفاض في انتباه الفانيليا الذي لا يتطلب أي تصحيحية -إجراء (ج) يمكن أن يؤدي أيضا إلى وفورات كبيرة في الذاكرة في طبقات الأعلاف إلى الأمام بعد إلقاءها في إطار القيمة المألوفة ذات القيمة الرئيسية. نحن نقيم جودة أعلى - * K * تقريب طبقات الاهتمام متعدد الأطراف على أساس الساحة الطويلة المدى، وللطبقات التغذية من T5 و unifectqa على مجموعات بيانات QA متعددة. نظرا لأن نهجنا يؤدي إلى الدقة التي تظل مما يقرب من انتباه الفانيليا في إكمال متعددة بما في ذلك التدريب من الصفر والضبط الناعم والاستدلال بالرصاص الصفر.
تم دراسة ضغط الجملة (SC)، التي تهدف إلى تقصير الأحكام مع الاحتفاظ بكلمات مهمة تعبر عن المعاني الأساسية، لسنوات عديدة في العديد من اللغات، خاصة باللغة الإنجليزية. ومع ذلك، فإن التحسينات في مهمة SC الصينية لا تزال قليلة جدا بسبب العديد من الصعوبات: ناد رة من كوربورا الموازية، وتحبيب تجزئة مختلفة من الجمل الصينية، والأداء غير الكامل للتحليلات النحوية. علاوة على ذلك، تم التحقيق في نماذج SC الصينية بأكملها حتى الآن. في هذا العمل، نبني مجموعة بيانات SC من الجمل العامية الصينية من نظام الإجابة على مدى واقعية في مجال الاتصالات السلكية واللاسلكية، ثم نقترح نموذج صيني عصبي SC معزز مع خريطة تنظيم ذاتية (SOM-NCSCM)، إلى احصل على رؤية قيمة من البيانات وتحسين أداء نموذج SC الصيني العصبي بأكمله بطريقة صالحة. تظهر النتائج التجريبية أننا يمكن أن تستفيد بشكل كبير من التحقيق العميق في التشابه بين البيانات، وتحقيق درجة F1 واعدة قدرها 89.655 وفرز Bleu4 البالغة 70.116، والتي توفر أيضا خط أساس لمزيد من الأبحاث حول مهمة SC الصينية.
التحيزات النمطية غير العادلة (على سبيل المثال، التحيزات الجنسانية أو العنصرية أو الدينية) ترميز نماذج اللغة الحديثة المحددة مسبقا (PLMS) لها آثار أخلاقية سلبية على الاعتماد الواسع النطاق لتكنولوجيا اللغات الحديثة. لعلاج ذلك، تم تقديم مجموعة واسعة من تقنيات المساواة مؤخرا لإزالة هذه التحيزات النمطية من PLMS. ومع ذلك، فإن طرق الدخل الحالية، ومع ذلك، قم بتعديل جميع معلمات PLMS مباشرة، والتي - إلى جانب كونها باهظة الثمن - مع خطر الكامنة من (كارثي) نسيان المعرفة اللغوية المفيدة المكتسبة في الاحتجاج. في هذا العمل، نقترح نهجا أكثر استدامة للدوائر على أساس محولات Deviasing المخصصة، التي دبلها أديل. بشكل ملموس، نحن (1) وحدات محول حقن في طبقات PLM الأصلية و (2) تحديث المحولات فقط (أي ونحن نعرض أديل، في الدخل الجنساني من BERT: تقييمنا الواسع، يشمل ثلاثة تدابير محلية خارجية ومثيرة للخدمة الخارجية، مما يجعل أديل، فعالة للغاية في تخفيف التحيز. نوضح كذلك - نظرا لطبيعتها المعيارية - أديل، إلى جانب محولات المهام، تحتفظ بالإنصاف حتى بعد التدريب على النمو النطاق واسع النطاق. وأخيرا، عن طريق بيرت متعددة اللغات، نجحنا في نقل أديل بنجاح إلى ست لغات مستهدفة.
نظرا للجهود المعجدة والإدراكية المتورطة في التوليد اليدوي من تعليق واحد لكل إدخال الصورة / الفيديو، فإن موارد الشروح البشرية محدودة للغاية لتسمية المهام. نحن نحدد كفاءة الموارد اللغوية باعتبارها تصل إلى نفس الأداء مع التوضيحية المشروحة أقل لكل مدخلات . ندرس أولا تدهور أداء نماذج التسمية التوضيحية في إعدادات موارد لغة مختلفة. يظهر تحليل نماذج التسمية التوضيحية مع خسارة SC أن تدهور الأداء ناتج عن تقدير المكافأة بشكل متزايد للمكافآت والأساس مع عدد أقل من الموارد اللغوية. لتخفيف هذه المشكلة، نقترح تقليل تباين الضوضاء في الأساس عن طريق تعميم المقارنة الزوجية الفردية في فقدان SC واستخدام مقارنات الزوجية المتعددة المتعمدة. يقيس المقارنة الزوجية المعممة (GPC) الفرق بين درجات التقييم التوضيحتين فيما يتعلق بالإدخال. وإظهار تجريبيا، نظرا لأن النموذج الذي تم تدريبه مع فقدان GPC المقترح فعالا على مورد اللغة وتحقق أداء مماثل مع النماذج الحديثة على MSCOC باستخدام نصف موارد اللغة فقط. علاوة على ذلك، تتفوق نموذجنا بشكل كبير على النماذج الحديثة على مجموعة بيانات تعليق الفيديو التي تحتوي على علامة تعليق واحدة فقط لكل إدخال في مجموعة التدريب.
لقد ظهرت وحدات محول كوسيلة فعالة من المعلمات لتخصص التشفير المسبق على المجالات الجديدة. استفادت محولات متعددة اللغات بشكل كبير (MMTS) بشكل خاص من التدريب الإضافي للمحولات الخاصة باللغة. ومع ذلك، فإن هذا النهج ليس قابلا للتطبيق بالنسبة للغالبية العظمى من اللغات، بسبب القيود في حجم الشقوق أو حساب الميزانيات. في هذا العمل، نقترح جنون G (جيل محول متعدد اللغات)، الذي يولد محولات لغة محلية من تمثيلات اللغة بناء على الميزات النموذجية. على عكس العمل السابق، يتيح نهجنا المجنون بوقتنا وفعال الفضاء (1) تبادل المعرفة اللغوية عبر اللغات و (2) استنتاج صفرية عن طريق توليد محولات لغة للغات غير المرئية. نحن نقيم بدقة جنون G في النقل الصفر - نقل عبر اللغات على علامة جزء من الكلام، وتحليل التبعية، والاعتراف كيان المسمى. أثناء تقديم (1) تحسين كفاءة ضبط الدقيقة (1) من خلال عامل حوالي 50 في تجاربنا)، (2) ميزانية معلمة أصغر، و (3) زيادة تغطية اللغة، لا تزال جنون جي تنافسية مع أساليب أكثر تكلفة للغة تدريب محول محدد في جميع اللوحة. علاوة على ذلك، فإنه يوفر فوائد كبيرة لغات الموارد المنخفضة، لا سيما في مهمة NER في لغات أفريقية منخفضة الموارد. أخيرا، نوضح أن أداء نقل جنون جي يمكن تحسينه عبر: (1) التدريب متعدد المصادر، أي، من خلال توليد ومجتمعة محولات لغات متعددة مع بيانات التدريب الخاصة بمهام المهام المتاحة؛ و (2) عن طريق مزيد من ضبط محولات جنون G للغات ولغات مع بيانات أحادية الأونلينغ.
في هذا العمل، نعتبر مشكلة تصميم أطر تعليمية آمنة وفعالة (FLF) ل NLP.الحلول القائمة تحت هذه الأدبيات إما النظر في مجمع موثوق أو تتطلب بدائريات تشفير ثقيلة الوزن، مما يجعل الأداء يتدهور بشكل كبير.علاوة على ذلك، تعمل العديد من تصاميم FL FL Secure الموجو دة فقط بموجب الافتراض التقييدي الذي يمكن إسقاط أي منهما من بروتوكول التدريب.لمعالجة هذه المشكلات، نقترح SEFL، وهو إطار تعليمي آمن وفعال في الفيدروس (1) يلغي الحاجة إلى الكيانات الموثوق بها؛(2) يحقق دقة نموذجية مماثلة وحتى أفضل مقارنة بتصميمات فلوريدا الحالية؛(3) مرن للتسربين العميل.
في الآونة الأخيرة، أظهرت KNN-MT (Khandelwal et al.، 2020) القدرة الواعدة لإدماجها مباشرة نموذج الترجمة الآلية العصبية المدربة مسبقا (NMT) مع استرجاع المجلة K-Levely-Levely-Level (KNN) ذات المستوى الأعلى للمجال تكيف المجال دون إعادة التدريب. على الرغم من كونها جذابة من الناحية النظرية، فإنه يعتمد بشدة على كورسا موازية عالية الجودة داخل المجال، مما يحد من قدرته على التكيف عن المجال غير المزعوم، حيث توجد شركة موازية داخل المجال نادرة أو غير موجودة. في هذه الورقة، نقترح إطارا جديدا يستخدم بشكل مباشر جمل أحادية المجال في اللغة المستهدفة لبناء اسم بيانات فعالة لاسترجاع جار ك. تحقيقا لهذه الغاية، نقدم أولا مهمة AutoNCoder بناء على اللغة المستهدفة، ثم قم بإدراج محولات خفيفة الوزن في نموذج NMT الأصلي لتعيين تمثيل مستوى الرمز المميز لهذه المهمة إلى التمثيل المثالي لمهمة الترجمة المثالية. توضح التجارب في مجموعات البيانات متعددة المجالات أن نهجنا المقترح يحسن بشكل كبير من دقة الترجمة مع بيانات أحادية الجانب المستهدف، مع تحقيق أداء مماثل مع الترجمة الخلفي. تنفيذنا مفتوح مصادر في HTTPS: // github. com / zhengxxn / uda-knn.
تحديات مهمة كفاءة ترجمة الآلات التي تحديات المشاركين لجعل أنظمتهم أسرع وأصغر مع الحد الأدنى من التأثير على جودة الترجمة.ما مقدار الجودة للتضحية بالكفاءة يعتمد على التطبيق، لذلك تم تشجيع المشاركين على تقديم عروض متعددة تغطي مساحة المقاضيات.في المجموع، كان هناك 53 طلب من 4 فرق.كان هناك GPU، وحدة المعالجة المركزية واحدة النواة، ومقطوعات الأجهزة وحدة المعالجة المركزية متعددة النواة وكذلك الإنتاجية المركبة أو ظروف الكمون الجملة واحدة.أظهرت التقديمات مئات الملايين من الكلمات يمكن ترجمتها مقابل الدولار، متوسط الكمون هو 5--17 مللي ثانية، ونماذج تناسبها 7.5-150 ميغابايت.
في إجابة سؤال مفتوحة بسيطة (QA)، أصبح استرجاع كثيف أحد الأساليب القياسية لاستعادة المقاطع ذات الصلة إلى استنتاج إجابة.في الآونة الأخيرة، حققت الاسترجاع الكثيف أيضا نتائج أحدث النتائج في هفور تشاينا، حيث يلزم تجميع المعلومات من أجزاء متعددة من المعلوم ات والمناسبات عليها.على الرغم من نجاحها، فإن أساليب استرجاع كثيفة هي مكثفة حسابية، مما يتطلب تدريب GPUs المتعدد للتدريب.في هذا العمل، نقدم نهجا هجينا (معجميا وتكثيفا) تنافسية للغاية مع نماذج استرجاع كثيفة الحديث، مع مطالبة موارد حسابية أقل بكثير.بالإضافة إلى ذلك، نحن نقدم تقييم متعمق لأساليب استرجاع كثيفة على إعدادات الموارد الحاسوبية المحدودة، وهو شيء مفقود من الأدبيات الحالية.
أصبح تحسين كفاءة المحولات جذابة بشكل متزايد مؤخرا.تم اقتراح مجموعة واسعة من الطرق، على سبيل المثال، التشذيب، الكمي، البنيات الجديدة وغيرها. ولكن هذه الأساليب إما متطورة في التنفيذ أو التعتمد على الأجهزة.في هذه الورقة، نظير على أنه يمكن تحسين كفاءة ال محولات من خلال الجمع بين بعض الطرق البسيطة والأجهزة غير المرجعية، بما في ذلك ضبط المعلمات فرط، وخيارات تصميم أفضل واستراتيجيات التدريب.في مهام الترجمة الأخبار WMT، نحسن كفاءة الاستدلال لنظام محول قوي بنسبة 3.80x على وحدة المعالجة المركزية و 2.52X على GPU.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا