ترغب بنشر مسار تعليمي؟ اضغط هنا

بعد نجاح اهتمام DOT-Product في المحولات، تم اقتراح تقريب عديدة مؤخرا لمعالجة تعقيدها التربيعي فيما يتعلق بطول الإدخال. في حين أن هذه المتغيرات هي الذاكرة وتحسب كفاءة، فمن غير الممكن استخدامها مباشرة مع نماذج اللغة المدربة مسبقا مسبقا تدربت باستخدام ا هتمام الفانيليا، دون مرحلة ما قبل التدريب التصحيحية باهظة الثمن. في هذا العمل، نقترح تقريب بسيط ولكن دقيق للغاية لاهتمام الفانيليا. نقوم بمعالجة الاستعلامات في قطع، ولكل عملية استعلام، حساب أعلى الدرجات * K * فيما يتعلق بالمفاتيح. يوفر نهجنا عدة مزايا: (أ) استخدام ذاكرةه خطي في حجم الإدخال، على غرار متغيرات الانتباه الخطي، مثل أداء و RFA (B) هو استبدال انخفاض في انتباه الفانيليا الذي لا يتطلب أي تصحيحية -إجراء (ج) يمكن أن يؤدي أيضا إلى وفورات كبيرة في الذاكرة في طبقات الأعلاف إلى الأمام بعد إلقاءها في إطار القيمة المألوفة ذات القيمة الرئيسية. نحن نقيم جودة أعلى - * K * تقريب طبقات الاهتمام متعدد الأطراف على أساس الساحة الطويلة المدى، وللطبقات التغذية من T5 و unifectqa على مجموعات بيانات QA متعددة. نظرا لأن نهجنا يؤدي إلى الدقة التي تظل مما يقرب من انتباه الفانيليا في إكمال متعددة بما في ذلك التدريب من الصفر والضبط الناعم والاستدلال بالرصاص الصفر.
ندرس قوة الاهتمام الشامل في بنية المحولات في سياق نقل التعلم للترجمة الآلية، وتوسيع نتائج الدراسات في انتباه متقاطع عند التدريب من الصفر.نقوم بإجراء سلسلة من التجارب من خلال ضبط نموذج الترجمة بشكل جيد على البيانات حيث تغيرت المصدر أو اللغة المستهدفة. تكشف هذه التجارب أن ضبط المعلمات الراقية فقط فعالة تقريبا مثل ضبط جميع المعلمات (I.E.، نموذج الترجمة بأكمله).نحن نقدم رؤى في سبب هذا هو الحال والمراقبة أن الحد من الضبط الجميل بهذه الطريقة يؤدي إلى تضمين متفاوت المحاذاة عبر الإنترنت.تتضمن الآثار المترتبة على هذا البحث عن الباحثين والممارسين تخفيفا من النسيان الكارثي، وإمكانية ترجمة الطلقة الصفرية، والقدرة على تمديد نماذج الترجمة الآلية إلى العديد من أزواج لغة جديدة مع انخفاض مستوى تخزين المعلمة.
تؤدي نماذج اللغة المدربة مسبقا بشكل جيد في مجموعة متنوعة من المهام اللغوية التي تتطلب منطق رمزي، مما رفع مسألة ما إذا كانت هذه النماذج تمثل ضمنيا الرموز والقواعد المجردة. نحن نحقق في هذا السؤال باستخدام دراسة حالة أداء بيرت على اتفاقية الفعل الإنجليز ي - الفعل. على عكس العمل السابق، ندرب حالات متعددة من بيرت من نقطة الصفر، مما يسمح لنا بإجراء سلسلة من التدخلات التي تسيطر عليها وقت ما قبل التدريب. نظرا لأن بيرت تعميم غالبا جيدا حتى تخضع أزواج الفعل التي لم تحدث أبدا في التدريب، مما يشير إلى درجة من السلوك الذي تحكم القواعد. ومع ذلك، نجد أيضا أن هذا الأداء يتأثر بشدة بتردد الكلمات، مع وجود تجارب تظهر أن كل من التردد المطلق لنموذج الفعل، وكذلك التردد بالنسبة إلى الانعطاف البديل، يتم تورطه سببابيا في تنبؤات Bert في وقت الاستدلال وبعد يكشف التحليل الأقرب من تأثيرات التردد هذه أن سلوك بيرت يتوافق مع النظام الذي يطبق بشكل صحيح قاعدة SVA بشكل عام ولكنه يكافح من أجل التغلب على بظر تدريب قوي وتقدير ميزات الاتفاقية (المفرد مقابل الجمع) على البنود المعجمية النادرة.
نقوم بتطوير نهج رواية للاستدلال بثقة في المحولات متعددة الطبقات الكبيرة والمكلفة الآن في كل مكان في معالجة اللغة الطبيعية (NLP).تؤدي الأساليب الحسابية المطفأة أو التقريبية إلى زيادة الكفاءة، ولكن يمكن أن تأتي مع تكاليف أداء غير متوقعة.في هذا العمل، ن قدم القطط - محولات تكيفية واثقة - حيث نزيد في وقت واحد من الكفاءة الحسابية، مع ضمان درجة تحديد الحاسمة مع النموذج الأصلي بثقة عالية.تقوم طريقةنا بتدريب رؤوس التنبؤ الإضافية على رأس الطبقات الوسيطة، وتقريرها بشكل حيوي عند إيقاف تخصيص الجهود الحسابية لكل إدخال باستخدام مصنف تناسق التعريف.لمعايرة التوقعات المبكرة لدينا الحكم، نقوم بصياغة امتداد فريد من التنبؤ المطابق.نوضح فعالية هذا النهج في أربعة مهام التصنيف والانحدار.
يستلزم الكشف عن الموقف (SD) تصنيف معنويات نص تجاه هدف معين، وهي مهمة فرعية ذات صلة لتحليل تعدين الرأي والوسائط الإعلامية الاجتماعية.وقد استكشفت الأعمال الحديثة تسريب المعرفة تكمل الكفاءة اللغوية والمعرفة الكامنة عن النماذج اللغوية الكبيرة المدربة مسب قا مع الرسوم البيانية المعرفة المهيكلة (KGS)، ومع ذلك فقد طبقت القليل من الأعمال هذه الأساليب إلى مهمة SD.في هذا العمل، نقوم أولا بتحقيق المعرفة ذات الصلة بالموقف على النماذج المدربة المستندة مسبقا للمحولات في إعداد تسديدة صفرية، مما يدل على المعرفة الحقيقية الكامنة في النماذج حول أهداف SD وحساستها للسياق.ثم ندرب وتقييم نماذج الكشف عن الموقف المخصب على المعرفة على مجموعة بيانات لموقف Twitter، وتحقيق أداء حديثة على حد سواء.
يحقق المحولات مسبقا أداء ملحوظا عند التدريب وبيانات الاختبار من نفس التوزيع. ومع ذلك، في سيناريوهات العالم الحقيقي، غالبا ما يواجه النموذج حالات خارج التوزيع (OOD) التي يمكن أن تسبب مشاكل شديدة التحول الدلالي في وقت الاستدلال. لذلك، في الممارسة العمل ية، يجب على نموذج موثوق أن يحدد هذه الحالات، ثم رفضها أثناء الاستدلال أو نقلها إلى النماذج التي تتعامل مع توزيع آخر. في هذه الورقة، نقوم بتطوير طريقة اكتشاف OOD غير مزودة بها، حيث يتم استخدام البيانات الموجودة في التوزيع فقط في التدريب. نقترح أن يلزم المحولات بفقدان مقنعين، مما يحسن من إيصال التمثيلات، بحيث يمكن التمييز بين مثيلات OOD بشكل أفضل عن المعرف. يمكن بعد ذلك اكتشاف هذه الحالات OOD بدقة باستخدام مسافة Mahalanobis في الطبقة السابقة للاشمئزاز. نقوم بتجربة إعدادات شاملة وتحقيق أداء الكشف عن المسؤولية المثالية تقريبا، وتفوق خطوط الأساس بشكل كبير. نحن مزيد من التحقيق في المناولة وراء التحسن، مما يجد أن المزيد من التمثيلات المدمجة من خلال التعلم المتعاقل الذي يعتمد على الهامش يجلب التحسن. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.
تعرض GPT-3 قدرة تعليمية ملحوظة في السياق من نماذج اللغة واسعة النطاق (LMS) المدربين على مئات البيانات بمليارات النطاق. نحن هنا تعالج بعض المشكلات المتبقية أقل إبلاغ عن ورق GPT-3، مثل LM غير الإنجليزية، وعروض النماذج المختلفة الحجم، وتأثير التحسين الف وري الذي قدم مؤخرا على التعلم في السياق. لتحقيق ذلك، نقدم Hyperclova، وهو متنقل كوري من 82B GPT-3 المدربين على كوربوس كوري مرئد من الرموز 560B. يعرض HyperClova المعزز من خلال رفيعنا الكوري الخاص بنا، ويعزز HyperClova مع تكوين التدريب لدينا أحدث أداء التعلم الصفرية في السياق وعدد قليل من الأداء في مهام المصب المختلفة في الكورية. أيضا، نعرض فوائد أداء التعلم الفوري وإظهار كيفية دمجه في خط أنابيب الهندسة السريعة. ثم نناقش إمكانية تحقيق نموذج لا يوجد رمز من خلال توفير قدرات النماذج الأولية ل AI لغير خبراء ML عن طريق إدخال ستوديو HyperClova، وهي واجهة هندسة سريعة التفاعلية. أخيرا، نوضح إمكانات أساليبنا بثلاث تطبيقات ناجحة في المنزل.
نقترح أول هجوم مقاوم للتدرج على المستوى العام على نماذج المحولات.بدلا من البحث عن مثال خصم واحد، نبحث عن توزيع الأمثلة الخصومة المعلمة بواسطة مصفوفة مستمرة قيمة، وبالتالي تمكين التحسين المستندة إلى التدرج.إننا نوضح تجريبيا أن هجومنا الأبيض الخاص بنا يصل إلى أداء الهجوم الحديثة في مجموعة متنوعة من المهام اللغوية الطبيعية، مما يتفوق على العمل السابق من حيث معدل النجاح العديي مع مطابقة غير محسنة حسب التقييم الآلي والبشري.علاوة على ذلك، نظير على أن هجوم قوي عبر الصندوق الأسود، تم تمكينه بواسطة أخذ العينات من التوزيع العديزي أو يطابق أو يتجاوز الطرق الحالية، في حين يتطلب فقط مخرجات التسمية الصعبة.
تحتوي المهام القياسية الحالية لمعالجة اللغة الطبيعية على نص مختلف عن النص المستخدم في اليومي غير الرسمي إلى الاتصال الرقمي اليومي. أدى هذا التناقض إلى تدهور الأداء الشديد لنماذج NLP الحديثة عندما يتم ضبطها بشكل جيد على بيانات العالم الحقيقي. طريقة وا حدة لحل هذه المشكلة هي من خلال التطبيع المعجمي، وهي عملية تحويل النص غير القياسي، وعادة ما تكون من وسائل التواصل الاجتماعي، إلى نموذج أكثر موحدة. في هذا العمل، نقترح نموذج تسلسل تسلسل على مستوى الجملة بناء على MBART، مما يؤدي إلى إطارات المشكلة بمثابة مشكلة ترجمة آلية. نظرا لأن النص الصاخب يمثل مشكلة منتشرة عبر اللغات، وليس الإنجليزية فقط، فإننا نستفيد من التدريب المسبق متعدد اللغات ل MBART لضبطه إلى بياناتنا. في حين أن الأساليب الحالية تعمل بشكل رئيسي على مستوى الكلمة أو الكلمات الفرعية، فإننا نجادل بأن هذا النهج واضح واضح من وجهة نظر تقنية ويبني على شبكات المحولات الموجودة مسبقا. تظهر نتائجنا أنه في حين أن مستوى الكلمة، جوهري، فإن تقييم الأداء هو وراء الطرق الأخرى، فإن نموذجنا يحسن الأداء على مهام خارجية ومصمبة من خلال التطبيع مقارنة بالنماذج التي تعمل على نص وسائل التواصل الاجتماعي الخام وغير المجهزة.
أصبح الانتشار الهائل للمعلومات الخاطئة عن وسائل التواصل الاجتماعي مخاطر عالمية خاصة في وضع جائحة عالمي مثل Covid-19. وبالتالي أصبح الكشف عن المعلومات الخاطئة موضوعا للأبحاث في الأشهر الأخيرة. في السنوات الأخيرة، تم استخدام نماذج تعلم الآلات الخاضعة ل لإشراف لتحديد المعلومات الخاطئة تلقائيا في وسائل التواصل الاجتماعي. ومع ذلك، فإن معظم نماذج تعلم الآلات هذه تركز فقط على اللغة التي تم تدريبها عليها. بالنظر إلى حقيقة أن منصات وسائل التواصل الاجتماعي تستخدم بلغات مختلفة، فإن إدارة نماذج التعلم في الآلات لكل لغة ستكون كل لغة فوضوية. في هذا البحث، نقوم بتجربة نماذج متعددة اللغات لتحديد معلومات خاطئة في وسائل التواصل الاجتماعي باستخدام مجموعة بيانات كشف مزورة متعددة اللغات تم إصدارها مؤخرا. نظرا لأن النماذج متعددة اللغات تؤدي على قدم المساواة مع النماذج الأولية وأحيانا أفضل من النماذج الأولية للكشف عن معلومات كاذبة في وسائل التواصل الاجتماعي مما يجعلها أكثر فائدة في سيناريوهات العالم الحقيقي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا