نحن نقدم SelfExPlain، وهو نموذج جديد يشرح ذاتيا يفسر تنبؤات تصنيف النص باستخدام المفاهيم القائمة على العبارة.SelfExplain تزويد الأقراص العصبية الموجودة من خلال إضافة (1) طبقة مخصصة عالمية تحدد المفاهيم الأكثر نفوذا في مجموعة التدريب لعينة معينة و (2)
طبقة قابلة للتفسير محليا تهدئ مساهمة كل مفهوم إدخال محلي عن طريق الحوسبة درجة الأهميةبالنسبة إلى التسمية المتوقعة.تظهر التجارب عبر خمسة مجموعات بيانات تصنيف نصية أن SelfExPlain يسهل الترجمة الشفوية دون التضحية بالأداء.الأهم من ذلك، تفسيرات من إظهار نفس إظهار الكفاية عن التنبؤات النموذجية وترى أنها كافية وجديرة بالثقة ومفهومة من قبل القضاة البشرية مقارنة مع خطوط الأساس المستخدمة على نطاق واسع.
نقترح إطارا جديدا لتدريب النماذج لتصنيف مقبولية الردود الناتجة عن نماذج توليد اللغة الطبيعية (NLG)، وتحسين تحويل الجملة الحالية والنهج القائمة على النماذج. يعتبر استجابة NLG مقبولة إذا كانت كل من صحيحة وتجميعها. نحن لا نستخدم أي مراجع بشرية مما يجعل
المصنفين مناسبين لنشر وقت التشغيل. يتم الحصول على بيانات التدريب للصفوف المصنفة باستخدام نهج من 2 مراحل من أول توليد البيانات الاصطناعية باستخدام مزيج من النهج القائمة والجديدة القائمة على النموذج متبوعا بإطار التحقق من صحة جديدة لتصفية وفرز البيانات الاصطناعية في فئات مقبولة وغير مقبولة. يتكيف نهجنا ذو المرحلتين لدينا بمجموعة واسعة من تمثيل البيانات ولا يتطلب بيانات إضافية تتجاوز ما يتم تدريب نماذج NLG عليها. وهي أيضا مستقلة عن الهندسة المعمارية النموذجية NLG الأساسية، وقادرة على توليد عينات أكثر واقعية قريبة من توزيع الردود الناتجة عن النموذج NLG. نقدم النتائج على 5 مجموعات بيانات (Webnlg، وتنظيفها E2E، Viggo، والتنبيه، والطقس) بتمثيلات بيانات متفاوتة. قارن إطار عملنا مع التقنيات الحالية التي تنطوي على توليد بيانات الاصطناعية باستخدام تحويلات جملة بسيطة و / أو تقنيات قائمة على الطراز، وإظهار أن بناء مصنف مقبولية يستخدمون البيانات التي تشبه مخرجات طراز الجيل تتبع إطار التحقق من الصحة تتفوق على التقنيات الحالية، وتحقيق الدولة النتائج من الفن. نظهر أيضا أن تقنياتنا يمكن استخدامها في إعدادات قليلة عند استخدام التدريب الذاتي.
يعتمد النمذجة وفهم الحوارات في محادثة على تحديد نية المستخدم من النص المحدد. كشف نية غير معروفة أو جديدة مهمة حاسمة، كما هو الحال في سيناريو واقعي قد يتغير نية المستخدم بشكل متكرر مع مرور الوقت وتحويله حتى إلى نية غير مرفدة. هذه المهمة المتمثلة في فص
ل عينات النية المجهولة من النوايا المعروفة واحدة صعبة حيث يمكن أن يتراوح نية المستخدم غير المعروفة من النوايا المشابهة للحالة المحددة مسبقا لشيء مختلف تماما. غالبا ما ينظر البحث المسبق في اكتشاف النية كهمة تصنيف حيث يمكن أن ينتمي نية غير معروفة إلى مجموعة محددة مسبقا من فئات النية المعروفة. في هذه الورقة، نتعامل مع مشكلة الكشف عن نية غير معروفة تماما دون أي تلميحات مسبقة حول نوع الطبقات التي تنتمي إلى نوايا غير معروفة. نقترح طريقة فعالة لما بعد المعالجة باستخدام التحسين متعدد الأهداف لضبط مصنف نوايا NEWRET NEWRET NEWELTION موجود وجعله قادر على اكتشاف حطاء غير معروف. نحن نقوم بإجراء تجارب باستخدام مصنفات النوايا الحالية الحالية واستخدام طريقةنا على رأسها لكشف نية غير معروفة. تظهر تجاربنا عبر المجالات المختلفة ومجموعات البيانات في العالم الحقيقي أن طريقتنا تعطي تحسينات كبيرة مقارنة بالطرق الحديثة للكشف عن النية غير معروفة.
نحن نبحث كيف يمكن تعديل محولات مستوى الجملة في وضع علامات تسلسل فعالة على مستوى الرمز المميز دون أي إشراف مباشر.لا تؤدي الأساليب الموجودة إلى وضع العلامات على التسلسل الصفرية جيدا عند تطبيقها على الهندسة القائمة على المحولات.نظرا لأن المحولات تحتوي ع
لى طبقات متعددة من اهتمام ذاتي متعدد الأطراف، فإن المعلومات الواردة في الجملة التي يتم توزيعها بين العديد من الرموز، مما يؤثر سلبا على أداء مستوى الرمز المميز من الصفر.نجد أن وحدة انتباه ناعمة تشجع صراحة على حدة الأوزان الاهتمام يمكن أن تتفوق بشكل كبير على الأساليب الحالية.
غالبا ما يتم انتقاد حلول التعلم الآلية لعدم وجود شرح لنجاحاتها وفشلها. فهم المثيلات التي يتم إساءة استخدامها ولماذا ضرورية لتحسين عملية التعلم. يساعد هذا العمل في ملء هذه الفجوة من خلال اقتراح منهجية تميز، حدد وقياس تأثير مثيلات صعبة في مهمة تصنيف ال
قطبية لمراجعات الأفلام. نحن نميز هذه الحالات إلى فئتين: الحياد، حيث لا ينقل النص قطبية واضحة، والتناقض، حيث يكون قطبية النص هو عكس تصنيفها الحقيقي. نحدد عدد الحالات الصعبة في تصنيف القطبية لمراجعات الأفلام وتوفير الأدلة التجريبية حول الحاجة إلى الانتباه إلى مثل هذه الحالات الإشكالية، لأنها أصعب بكثير تصنيفها، لكلا الجهازين والصفوف البشري. إلى حد ما من معرفتنا، هذا هو أول تحليل منهجي لتأثير المثيلات الصلبة في الكشف عن القطبية من الاستعراضات النصية المكونة بشكل جيد.
لقد أظهر العمل الحديث أن الشبكات الكبيرة التي تعمل بالضبط حساسة بشكل مدهش للتغيرات في بذور (بذور عشوائية). نستكشف الآثار المترتبة على هذه الظاهرة من أجل الإنصاف النموذجي عبر المجموعات الديموغرافية في مهام التنبؤ السريري على السجلات الصحية الإلكترونية
(EHR) في MIMIC-III ------ The Standard DataSet في بحث Clinical NLP. يختلف أداء مجموعة فرعية واضحة بشكل كبير عن البذور التي تسفر عن أداء عموما مماثل، على الرغم من عدم وجود دليل على المفاضلة بين أداء المجموعات الفرعية بشكل عام. ومع ذلك، نجد أيضا أن أحجام العينات الصغيرة الكامنة للنظر في تقاطعات مجموعات الأقليات والظروف النادرة إلى حد ما تحد من قدرتنا على تقدير التباينات بدقة. علاوة على ذلك، نجد أن التحسين المشترك للأداء الشامل العالي والتفاوتات المنخفضة لا تستسلم تحسينات ذات دلالة إحصائية. تشير نتائجنا إلى أن عدالة العمل باستخدام MIMIC-III يجب أن يمر بعناية الاختلافات في الاختلافات الواضحة التي قد تنشأ من الاستوك الاستوكاني وأحجام عينة صغيرة.
تركز العديد من النهج الحالية لتفسير نماذج تصنيف النص على توفير الأهمية عشرات لأجزاء من نص الإدخال، مثل الكلمات، ولكن دون أي طريقة لاختبار أو تحسين طريقة التفسير نفسها. هذا له تأثير مزعج مشكلة فهم أو بناء الثقة في النموذج، مع طريقة التفسير نفسها إضافة
إلى عتامة النموذج. علاوة على ذلك، فإن العشرات الأهمية حول الأمثلة الفردية عادة ما تكون لا تكفي لتوفير صورة كافية من السلوك النموذجي. لمعالجة هذه المخاوف، نقترح Moxie (تأثير النمذجة الحساسة للكلمات) بهدف تمكين واجهة أكثر ثراء للمستخدم للتفاعل مع النموذج الذي يتم تفسيره وإنتاج تنبؤات قابلة للإصابة. على وجه الخصوص، نهدف إلى تقديم تنبؤات لعشرات الأهمية والمعدات المضادة والتحيزات المستفادة مع Moxie. بالإضافة إلى ذلك، مع هدف التعلم العالمي، يوفر Moxie مسارا واضحا لاختبار وتحسين نفسها. نقيم موثوقية وكفاءة Moxie على مهمة تحليل المعنويات.
إن فهم كيفية ترميز الهيكل اللغوي في التضمين السياق يمكن أن يساعد في تفسير أدائه المثير للإعجاب عبر NLP.عادة ما تدعو النهج الحالية لتحقيقها عادة إلى تدريب الطبقات وتستخدم الدقة والمعلومات المتبادلة أو التعقيد كوكيل لخير التمثيل.في هذا العمل، نجادل بأن
القيام بذلك يمكن أن يكون غير موثوق به لأن تمثيلات مختلفة قد تحتاج إلى طبقات مختلفة.نقوم بتطوير إرشادي، DirectProbe، يدرس مباشرة هندسة التمثيل من خلال البناء عند فكرة مساحة الإصدار لمهمة.تبين التجارب التي لديها العديد من المهام اللغوية والموظفة السياقية أنه، حتى بدون منصوص قياسات التدريب، يمكن أن يضيء DirectProbe الأنوار حول كيفية تمثيل مساحة التضمين ملصقات وتوقع أيضا أداء المصنف للتمثيل أيضا.
يعتبر التنبؤ بالتسرب المدرسي مسألة ذات أهمية عالية في المجال التعليمي، و هي تتأثر بالعديد من العوامل لذلك فإنه ليس من السهل حلها. نقدم في هذا البحث مقاربة لحل هذا الموضوع باستخدام تقنيات دمج المصنفات Ensemble Classifiers للتنبؤ بتسرب التلاميذ، تحديدا
ً طلاب التعليم الإلزامي في الجمهورية العربية السورية. و قد تم تصميم مصنف جديد بالاعتماد على تقنية الدمج Stacking Method و تطبيق تقنيات اختيار الميزة Feature Selection كون قاعدة المعطيات تعاني من مشكلة عدم التوازن.
تم مقارنة المصنف مع المصنفات الفردية و باستخدام تقنية Cross-Validation ، و قد خلصت الدراسة إلى أن المصنف المقترح هو الأفضل من بين المصنفات التي تم مقارنتها للتنبؤ بتسرب الطلاب.