ترغب بنشر مسار تعليمي؟ اضغط هنا

تحقق هذه الورقة في التعلم المستمر لتحليل الدلالي. في هذا الإعداد، يتعلم المحلل الدلالي العصبي المهام بالتتابع دون الوصول إلى بيانات التدريب الكامل من المهام السابقة. فشل التطبيق المباشر لخوارزميات التعلم المستمرة لسوتا لهذه المشكلة في تحقيق أداء قابل ا للمقارنة مع نماذج إعادة التدريب مع جميع المهام التي شوهدت لأنها لم تعتبر الخصائص الخاصة للنواتج المنظمة التي أسفرت عن المحللين الدلاليين. لذلك، نقترح totalrecall، وهي طريقة تعليمية مستمرة مصممة للمحطات الدلالية العصبية من جوانب: ط) طريقة أخذ العينات لإعادة الذاكرة التي تنويع قوالب النماذج المنطقية وأرصدة توزيعات تصرفات التحليل في الذاكرة؛ 2) طريقة تدريب ذات مرحامة تعمل بشكل كبير على تحسين القدرة على تعميم التعميم من المحللين عبر المهام. نقوم بإجراء تجارب مكثفة لدراسة المشاكل البحثية المتورطة في تحليل دلالي مستمر وتظهر أن المحلل الدلالي العصبي المدرب مع TotalRecall يحقق أداء فائقا من المرء الذي تم تدريبه مباشرة مع خوارزميات التعلم المستمرة SOTA وتحقيق تسريع 3-6 مرات مقارنة بإعادة التدريب من الصفر.
هناك اهتمام متزايد بالتعلم المستمر (CL)، حيث أصبحت خصوصية البيانات أولوية للتطبيقات الحقيقية لتعلم الآلة في العالم.وفي الوقت نفسه، لا يزال هناك نقص في معايير NLP الأكاديمية التي تنطبق على إعدادات CL واقعية، وهي تحدي كبير للنهوض بالمجال.في هذه الورقة، نناقش بعض خصائص البيانات غير الواقعية لمجموعات البيانات العامة، ودراسة تحديات التعلم المستمر واقعي واقعي وكذلك فعالية بروفات البيانات كوسيلة للتخفيف من خسارة الدقة.نحن نبني مجموعة بيانات CL NER من مجموعة بيانات موجودة متوفرة للجمهور وإصدارها جنبا إلى جنب مع الكود إلى مجتمع البحث.
أظهر تعلم التعزيز العميق إمكانات كبيرة في سياسات الحوار التدريبية. ومع ذلك، فإن أدائها المواتي يأتي بتكلفة العديد من جولات التفاعل. تعتمد معظم أساليب سياسة الحوار الحالية على نظام تعليمي واحد، في حين أن الدماغ البشري يحتوي على نظامين لتعلم وذاكرة متخ صصين، يدعمان لإيجاد حلول جيدة دون الحاجة إلى أمثلة غزيرة. مستوحاة من الدماغ البشري، تقترح هذه الورقة إطار عمل لتعلم السياسات التكميلي الرواية (CPL)، والتي تستغل المزايا التكميلية لسياسة الذاكرة العرضية (EM) وسياسة شبكة Q-Network (DQN) العميقة لتحقيق تعلم سياسة حوار سريعة وفعالة وبعد من أجل التنسيق بين السياسة، اقترحنا وحدة تحكم الثقة للسيطرة على الوقت التكميلي وفقا لفعولتها النسبية في مراحل مختلفة. علاوة على ذلك، يتم اقتراح اتصال الذاكرة وتقليم الوقت لضمان التعميم المرن والتكيف للسياسة EM في مهام الحوار. تظهر النتائج التجريبية على ثلاث مجموعات بيانات الحوار أن طريقتنا تتفوق بشكل كبير على الطرق الحالية التي تعتمد على نظام تعليمي واحد.
أثبتت تقنيات ما قبل التدريب المسبقة بالمحولات من النص والتخطيط فعالا في عدد من مهام تفهم المستند.على الرغم من هذا النجاح، تعاني نماذج التدريب المسبق متعددة الوسائط من تكاليف حساب حسابية عالية جدا.بدافع من استراتيجيات القراءة البشرية، تقدم هذه الورقة انتباه الجميل، وهي آلية اهتمام جديدة تستفيد من هيكل الوثيقة وتخطيطها.يحضر Skim-Animaly فقط من الموقف الثاني الأبعاد للكلمات في وثيقة.تظهر تجاربنا أن اهتمام Skim-lective يحصل على حيرة أقل من الأعمال السابقة، في حين أن تكون أكثر فعالية بشكل فعال.يمكن دمج إيلاء اهتمام Skim مع محولات طويلة المدى لعمل المستندات الطويلة بكفاءة.نوضح أيضا كيف يمكن استخدام Skim-lecture خارج الرف كقنعة لأي نموذج لغوي مدرب مسبقا، مما يتيح تحسين أدائها أثناء تقييد الانتباه.أخيرا، نظهر ظهور تمثيل هيكل وثيقة في اهتمام Skim.
تؤدي نماذج اللغة المدربة مسبقا بشكل جيد في مجموعة متنوعة من المهام اللغوية التي تتطلب منطق رمزي، مما رفع مسألة ما إذا كانت هذه النماذج تمثل ضمنيا الرموز والقواعد المجردة. نحن نحقق في هذا السؤال باستخدام دراسة حالة أداء بيرت على اتفاقية الفعل الإنجليز ي - الفعل. على عكس العمل السابق، ندرب حالات متعددة من بيرت من نقطة الصفر، مما يسمح لنا بإجراء سلسلة من التدخلات التي تسيطر عليها وقت ما قبل التدريب. نظرا لأن بيرت تعميم غالبا جيدا حتى تخضع أزواج الفعل التي لم تحدث أبدا في التدريب، مما يشير إلى درجة من السلوك الذي تحكم القواعد. ومع ذلك، نجد أيضا أن هذا الأداء يتأثر بشدة بتردد الكلمات، مع وجود تجارب تظهر أن كل من التردد المطلق لنموذج الفعل، وكذلك التردد بالنسبة إلى الانعطاف البديل، يتم تورطه سببابيا في تنبؤات Bert في وقت الاستدلال وبعد يكشف التحليل الأقرب من تأثيرات التردد هذه أن سلوك بيرت يتوافق مع النظام الذي يطبق بشكل صحيح قاعدة SVA بشكل عام ولكنه يكافح من أجل التغلب على بظر تدريب قوي وتقدير ميزات الاتفاقية (المفرد مقابل الجمع) على البنود المعجمية النادرة.
أظهرت نماذج المحادثة العصبية إمكانات كبيرة تجاه توليد ردود بطلاقة وإمعلومات عن طريق إدخال معرفة خلفية خارجية. ومع ذلك، فمن الشائع بناء هذه الحوارات المدرجة في المعرفة، وعادة ما تؤدي النماذج الحالية بشكل سيء عند النقل إلى مجالات جديدة مع عينات تدريب م حدودة. لذلك، فإن بناء نظام حوار مدرج في المعرفة بموجب إعداد الموارد المنخفضة هو قضية حاسمة لا تزال. في هذه الورقة، نقترح إطارا لتعليم تعليمي رواية ثلاث مراحل يستند إلى التعلم الإشرافه ضعيف يفيد من الحوارات على نطاق واسع وقاعدة المعرفة غير المنظمة. للتعاون بشكل أفضل مع هذا الإطار، نضع متغير من المحولات مع فك فك التشفير التي تسهل التعلم المنطلق لتوليد الاستجابة وإدماج المعرفة. تشير نتائج التقييم إلى معيارين إلى أن نهجنا يمكن أن يتفوق على أساليب حديثة أخرى مع بيانات تدريب أقل، وحتى في سيناريو الموارد الصفرية، فإن نهجنا لا يزال ينفذ جيدا.
نظرا لأن تكلفة وضع العلامات للوحدات المختلفة في أنظمة الحوار الموجهة نحو المهام (TOD) باهظ الثمن، فإن التحدي الرئيسي هو تدريب وحدات مختلفة بأقل قدر من البيانات المسمى. أظهرت نماذج اللغة المدربة مسبقا مؤخرا، نتائج واعدة واعدة لعدد قليل من التعلم في TO D. في هذه الورقة، نرتند نهجا للتدريب الذاتي للاستفادة من بيانات الحوار غير المسبق الوفيرة لزيادة تحسين النماذج المدربة للدولة المدربة مسبقا في سيناريوهات تعليمية قليلة لأنظمة TOD. على وجه التحديد، نقترح نهجا للتدريب الذاتي أن تستلم البيانات الأكثر ثقة أكثر ثقة لتدريب نموذج طالب أقوى. علاوة على ذلك، يقترح تقنية تكبير نص جديد (GradaG) تدريب الطالب بشكل أفضل عن طريق استبدال الرموز غير الحاسمة باستخدام نموذج لغة ملثم. نقوم بإجراء تجارب مكثفة وتحليلات موجودة على أربع مهام المصب في TOD، بما في ذلك تصنيف النوايا وتتبع ولاية الحوار وتنبؤ قانون الحوار واختيار الاستجابة. توضح النتائج التجريبية أن نهج التدريب الذاتي المقترح باستمرار يحسن باستمرار النماذج المدربة مسبقا من أحدث (بيرت، TOD-BERT-BERT) عند توفر عدد صغير فقط من البيانات المسمى.
يتم إنشاء ملايين علامة التجزئة على وسائل التواصل الاجتماعي كل يوم لإرشاد الرسائل المتعلقة بموضوعات مماثلة. لمساعدة الناس على العثور على الموضوعات التي يرغبون في مناقشتها، تقوم هذه الورقة بتفضيل تفضيلات Hashtaginging للمستخدم عبر التنبؤ بمدى المرجح أن ينشرها مع علامة التجزئة. يتم افتراض أنه يرتبط اهتمامات المرء في علامة التجزئة بما قالها قبل (سجل المستخدم) ووظائف المشاركات الحالية التي تقدم علامة التجزئة (سياقات Hashtag). هذه العوامل متزوجة في المساحة الدلالية العميقة التي بنيت برت مدرب مسبقا ونموذج موضوع عصبي عبر التعلم المتعدد. وبهذه الطريقة، يمكن تخصيص اهتمامات المستخدم المستفادة من الماضي لتتناسب مع علامة التصنيف المستقبلية التي تتجاوز قدرة الأساليب الموجودة على افتراض أن دلالات البحث في هاشتاج دون تغيير. علاوة على ذلك، نقترح انتباه موضوع شخصي مخصص رواية لالتقاط محتويات بارزة لتخصيص سياقات HASHTAG. تشير التجارب على مجموعة بيانات Twitter واسعة النطاق إلى أن نموذجنا يتفوق بشكل كبير على نهج توصية الحديث عن الفن دون استغلال موضوعات كامنة.
نظرا للجهود المعجدة والإدراكية المتورطة في التوليد اليدوي من تعليق واحد لكل إدخال الصورة / الفيديو، فإن موارد الشروح البشرية محدودة للغاية لتسمية المهام. نحن نحدد كفاءة الموارد اللغوية باعتبارها تصل إلى نفس الأداء مع التوضيحية المشروحة أقل لكل مدخلات . ندرس أولا تدهور أداء نماذج التسمية التوضيحية في إعدادات موارد لغة مختلفة. يظهر تحليل نماذج التسمية التوضيحية مع خسارة SC أن تدهور الأداء ناتج عن تقدير المكافأة بشكل متزايد للمكافآت والأساس مع عدد أقل من الموارد اللغوية. لتخفيف هذه المشكلة، نقترح تقليل تباين الضوضاء في الأساس عن طريق تعميم المقارنة الزوجية الفردية في فقدان SC واستخدام مقارنات الزوجية المتعددة المتعمدة. يقيس المقارنة الزوجية المعممة (GPC) الفرق بين درجات التقييم التوضيحتين فيما يتعلق بالإدخال. وإظهار تجريبيا، نظرا لأن النموذج الذي تم تدريبه مع فقدان GPC المقترح فعالا على مورد اللغة وتحقق أداء مماثل مع النماذج الحديثة على MSCOC باستخدام نصف موارد اللغة فقط. علاوة على ذلك، تتفوق نموذجنا بشكل كبير على النماذج الحديثة على مجموعة بيانات تعليق الفيديو التي تحتوي على علامة تعليق واحدة فقط لكل إدخال في مجموعة التدريب.
تعد التصنيفات موارد قيمة للعديد من التطبيقات، ولكن التغطية المحدودة بسبب عملية العمالة اليدوية باهظة الثمن تعوق إمكانية تطبيقها العام. محاولة Works السابقة لتوسيع تصنيفات الأدتصات الموجودة تلقائيا لتحسين تغطيتها من خلال تضمين التعلم بمشاركة مفهوم في الفضاء الإقليدية، في حين أن التصنيفات، التسلسل الهرمي بطبيعتها، محاذاة بشكل طبيعي مع الخصائص الهندسية للفضاء القطعي. في هذه الورقة، نقدم HyperExpan، خوارزمية توسيع تصنيفية تسعى إلى الحفاظ على هيكل التصنيف في مساحة أكثر تعبيرا معبرة وتتعلم أن تمثل المفاهيم وعلاقاتها مع شبكة عصبية خاطئة (HGNN). على وجه التحديد، ترفع Hyperexpan تضمينات الموضع لاستغلال هيكل التصنيفات الموجودة، وتميز معلومات ملف تعريف المفهوم لدعم الاستدلال على مفاهيم جديدة غير مرئية أثناء التدريب. تشير التجارب إلى أن Hyperexpan المقترح تفوق النماذج الأساسية بنماذج أساسية مع التعلم التمثيلي في مساحة ميزة Euclidean وتحقق أداء حديثة على معايير التوسع التصنيفية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا