ترغب بنشر مسار تعليمي؟ اضغط هنا

تم إنشاء العديد من مجموعات البيانات لتدريب نماذج الفهم في القراءة، والسؤال الطبيعي هو ما إذا كان يمكننا دمجها لبناء النماذج التي (1) أداء أفضل على جميع مجموعات بيانات التدريب و (2) تعميم وتحويل أفضل بيانات جديدة إلى مجموعات البيانات الجديدة. عالج الع مل المسبق هذا الهدف من خلال تدريب شبكة واحدة في وقت واحد على مجموعات بيانات متعددة، والتي تعمل بشكل جيد في المتوسط ​​ولكنها عرضة للتوزيعات الفرعية المختلفة أو غير الضرورية ويمكن نقلها أسوأ مقارنة بالنماذج المصدر بأكثر تداخل مع DataSet المستهدف. يتمثل نهجنا في نموذج سؤال متعدد البيانات مستجيب مع مجموعة من خبراء DataSet واحد، من خلال تدريب مجموعة من وحدات محول محول خفيفة الوزن وخفيفة الوزن (Houlsby et al.، 2019) التي تشترك في نموذج محول أساسي. نجد أن خبراء مجموعة البيانات متعددة المحولات (صنع) تفوقوا جميع خطوط الأساس لدينا من حيث دقة التوزيع، والأساليب البسيطة القائمة على متوسط ​​المعلمة تؤدي إلى تحسين التعميم الصفرية وأداء قليل من الرصاص، مما يوفر قويا و نقطة انطلاق متعددة الاستخدامات لبناء أنظمة مفهوم القراءة الجديدة.
الحصول على الاستجابة العاطفية هي خطوة رئيسية في بناء نظم الحوار التعاطفية. تمت دراسة هذه المهمة كثيرا في Chatbots القائمة على الجيل، ولكن البحوث ذات الصلة في chatbots القائمة على الاسترجاع لا تزال في المرحلة المبكرة. تستند الأعمال الموجودة في Chatbot s المستندة إلى الاسترجاع إلى إطار استرداد Rerank-Rerank، والتي لها مشكلة مشتركة تؤثر على التسمية على حساب جودة الاستجابة. لمعالجة هذه المشكلة، نقترح إطارا بسيطا وفعالا - إعادة الكتابة - إعادة الكتابة. يحل الإطار محل آلية إعادة النشر مع آلية جديدة للتمييز وإعادة الكتابة، والذي يتنبأ بتسمية التأثير على الاستجابة عالية الجودة المستردة من خلال وحدة التمييز ومواصلة إعادة كتابة الاستجابة غير الراضية عبر وحدة إعادة كتابة. هذا لا يمكن أن يضمن فقط جودة الاستجابة، ولكن أيضا تلبية علامة التأثير المحددة. بالإضافة إلى ذلك، فإن التحدي الآخر لهذا السطر البحث هو عدم وجود مجموعة بيانات استجابة عاطفية خارج الرف. لمعالجة هذه المشكلة واختبار إطار عملنا المقترح، سنلقيطر على كوربوس محادثة Douban Sentemental بناء على Corpus الأصلي Doubban Corpus. تظهر النتائج التجريبية أن إطار عملنا المقترح فعال وتفوق خطوط أساس تنافسية.
يتعين على نماذج اللغة المدربة مسبقا (PRLM) لإدارة وحدات الإدخال بعناية عند التدريب على نص كبير جدا مع مفردات تتكون من ملايين الكلمات. أظهرت الأعمال السابقة أن دمج معلومات المسيح على مستوى الأمان بشأن الكلمات المتتالية في التدريب المسبق يمكن أن تحسن أ داء PRLMS. ومع ذلك، بالنظر إلى أن أدلة المسكنات المستفادة مقدمة وإثباتها في التدريب المسبق، فإن الطرق السابقة تستغرق وقتا طويلا ونقص المرونة. لتخفيف الإزعاج، تقدم هذه الورقة طريقة رواية تمتد دقيقة لضبط PRLMS، مما يسهل إعداد SPES يتم تحديده على تكيفه بواسطة مهام معينة من المصب أثناء مرحلة الضبط الجميلة. بالتفصيل، سيتم تجزئة أي جمل تتم معالجتها من قبل PRLM في تمديدات متعددة وفقا لقاموس ما قبل العينات. ثم سيتم إرسال معلومات التجزئة من خلال وحدة CNN الهرمية مع مخرجات التمثيل من PRLM وتولد في نهاية المطاف تمثيلا محسن. تشير التجارب على معيار الغراء إلى أن طريقة ضبط الدقيقة المقترحة تعزز بشكل كبير PRLM، وفي الوقت نفسه، تقدم المزيد من المرونة بطريقة فعالة.
يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية في هذا المجال، على سبيل المثال، تطوير Chatement-Aware Chatbots. كان التحدي الفني الرئيسي واحد هو تكلفة التسجيل يدويا الحوارات مع ملصقات العاطفة المناسبة. في هذه الورقة، نصف مجموعة بيانات فضية واسعة النطاق تتكون من حوارات من 1M المشروح ب 32 عواطف دقيقة، وثمانية نوايا استجابة متعاطفية، والفئة المحايدة. لتحقيق هذا الهدف، قمنا بتطوير خط أنابيب لجنة البيانات الرواية بدءا من بذرة صغيرة من البيانات المشروحة يدويا وتوسيع نطاقها في نهاية المطاف إلى حجم مرض. قمنا بمقارنة جودةها مقابل مجموعة بيانات ذهبية أحدث باستخدام كل من التجارب دون اتصال وطرائق التحقق من الصحة. يمكن استخدام الإجراء الناتج لإنشاء مجموعات بيانات مماثلة في نفس المجال وكذلك في المجالات الأخرى.
في حين أن مجموعات بيانات الإجابة على الأسئلة المتنوعة (QA) اقترحت وساهمت بشكل كبير في تطوير نماذج التعلم العميق لمهام ضمان الجودة، فإن البيانات الحالية تقصر في جوانبين. أولا، نفتقر إلى مجموعات بيانات ضمان الجودة التي تغطي الأسئلة المعقدة التي تنطوي ع لى إجابات بالإضافة إلى عمليات التفكير للحصول عليها. نتيجة لذلك، لا تزال أبحاث ضمنيا في ضمان الجودة العددية تركز على حسابات بسيطة ولا توفر التعبيرات الرياضية أو الأدلة التي تبرر الإجابات. ثانيا، ساهم مجتمع ضمان الجودة في الكثير من الجهد لتحسين إمكانية تفسير نماذج QA. ومع ذلك، فإنهم يفشلون في إظهار عملية التفكير صراحة، مثل أمر الأدلة من أجل التفكير والتفاعلات بين الأدلة المختلفة. لمعالجة العيب المذكور أعلاه، نقدم Noahqa ومجموعة بيانات QA محادثة وثنائية اللغة مع أسئلة تتطلب التفكير العددي مع التعبيرات الرياضية المركبة. مع Noahqa، نقوم بتطوير رسم بياني لتفكير قابل للتفسير بالإضافة إلى متري التقييم المناسب لقياس جودة الإجابة. نقوم بتقييم حديثة نماذج ضمان الجودة المدربة باستخدام مجموعات بيانات QA الحالية على Noahqa وإظهار أن الأفضل من بينها يمكن فقط تحقيق 55.5 عشر درجات مطابقة محددة، في حين أن الأداء البشري هو 89.7. نقدم أيضا نموذجا جديدا في ضمان الجودة لتوليد رسم بياني للمنطق حيث لا يزال متري الرسم البياني للمنطق فجوة كبيرة مقارنة بمركبات البشر، على سبيل المثال، 28 درجات.
يمكن إلقاء العديد من الأسئلة المفتوحة على المشكلات بمثابة مهمة استقامة نصية، حيث يتم تسليم الإجابات السؤال والمرشح لتشكيل الفرضيات. ثم يحدد نظام ضمان الجودة إذا كان قواعد المعرفة الداعمة، التي تعتبر مباني محتملة، تنطوي على الفرضيات. في هذه الورقة، نح قق في نهج ضمان الجودة العصبي الرمزي الذي يدمج المنطق الطبيعي في مجال البندسة التعليمية العميقة، نحو تطوير نماذج إجابة فعالة وغير قابلة للتفسير. النموذج المقترح يسجل تدريجيا فرضية ومباني مرشحة بعد خطوات الاستدلال المنطقي الطبيعي لبناء مسارات إثبات. يتم قياس درجات الاستلام بين الفرضيات المتوسطة المكتسبة ومباني المرشح لتحديد ما إذا كانت الفرضية تستلزم الفرضية. نظرا لأن عملية التفكير الطبيعي للمنطق تشكل هيكل يشبه الأشجار وتسلسلا هرميا، فإننا قمنا بتضمين الفرضيات والمباني في مساحة مفرطة بدلا من مساحة Euclidean للحصول على تمثيلات أكثر دقة. تجريبيا، وطريقة لدينا تفوقت على العمل المسبق على الإجابة على أسئلة علوم متعددة الخيارات، وتحقيق أفضل النتائج في مجموعة بيانات متوفرة للجمهور. توفر عملية الاستدلال المنطقي الطبيعي بطبيعتها الأدلة للمساعدة في تفسير عملية التنبؤ.
غالبا ما تعتمد مهام الإجابة على الأسئلة التي تتطلب معلومات من وثائق متعددة على نموذج استرجاع لتحديد المعلومات ذات الصلة للتفكير. يتم تدريب نموذج الاسترجاع عادة على تعظيم احتمالية الأدلة الداعمة المسمى. ومع ذلك، عند الاسترجاع من نصائح نصية كبيرة مثل W ikipedia، غالبا ما يتم الحصول على الإجابة الصحيحة من مرشحين أدلة متعددة. علاوة على ذلك، لا يتم تصنيف جميع هؤلاء المرشحين على أنها إيجابية أثناء التوضيحية، مما يجعل إشارة التدريب ضعيفة وصاخبة. يتم تفاقم هذه المشكلة عندما تكون الأسئلة غير مرضية أو عندما تكون الإجابات منطقية، نظرا لأن النموذج لا يمكن أن يعتمد على التداخل المعجمي لإجراء اتصال بين الإجابة والدليل الدعم. نقوم بتطوير مخففة جديدة لاسترجاع المحدد الذي يتعامل مع الاستعلامات غير المجهولية، ونظهر أن التهميش حول هذه المجموعة أثناء التدريب يسمح للنموذج لتخفيف السلبيات الخاطئة في دعم التعليقات التوضيحية للأدلة. نحن نختبر طريقتنا في مجموعات بيانات QA متعددة الوثائق، IIRC و hotpotqa. على IIRC، نظهر أن النمذجة المشتركة مع التهميش يحسن أداء نموذجي بنسبة 5.5 F1 ونحقق أداء جديد من بين الفنون 50.5 F1. نوضح أيضا أن تهميش استرجاع ينتج عنه تحسن 4.1 ضمير QA F1 على خط الأساس غير المهمش في HOTPOTQA في إعداد FullWiki.
نحن نتعامل مع استجابة سؤال متعددة الاختيار.الحصول على معرفة المنطقية ذات الصلة بالسؤال والخيارات يسهل الاعتراف بالإجابة الصحيحة.ومع ذلك، تعاني نماذج التفكير الحالية من الضوضاء في المعرفة المستردة.في هذه الورقة، نقترح طريقة ترميز جديدة قادرة على إجراء الاعتراض والتصفية الناعمة.وهذا يساهم في حصاد وامتصاص المعلومات التمثيلية مع تدخل أقل من الضوضاء.نقوم بتجربة commonsenseqa.توضح النتائج التجريبية أن طريقتنا تعطي تحسينات كبيرة ومتسقة مقارنة بخدمات الأساس والقاعدة القائمة على روبرتا وألبرت.
إن فهم مشاعر المتكلم وإنتاج الاستجابات المناسبة مع اتصال العاطفة هو مهارة متتالية رئيسية لأنظمة الحوار التعاطفية.في هذه الورقة، نقترح تقنية بسيطة تسمى فك الترميز العاطفي لتوليد الاستجابة المتعاطفة.يمكن أن تتضمن طريقةنا بفعالية إشارات العاطفة أثناء كل خطوة فك التشفير، ويمكن تقديمها بالإضافة إلى ذلك بتشمس العاطفة المزدوجة الإضافية، والتي تتعلم تضمين منفصل للمتكلم والمستمع بالنظر إلى قاعدة العاطفة للحوار.تشير الدراسات التجريبية الواسعة إلى أن نماذجنا تعتبر أكثر تعاطفا عن طريق التقييمات البشرية، بالمقارنة مع العديد من الأساليب الرئيسية القوية للاستجابة التعاطفية.
هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق نقل النمط، نجد أن بروتوكولات التقييمات البشرية غالبا ما تكون غير محددة وغير موحدة، والتي تعيق استنساخ البحث في هذا المجال والتقدم نحو أساليب تقييم بشرية وتلقائية أفضل.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا