ترغب بنشر مسار تعليمي؟ اضغط هنا

Spectra: ترشيد النص المنظم Sparse

SPECTRA: Sparse Structured Text Rationalization

94   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يهدف الترشيد الانتقائي إلى إنتاج قرارات جنبا إلى جنب مع المناولة (على سبيل المثال، النصوص النصية أو محاذاة الكلمات بين جملتين). عادة ما يتم تصميم المنظمات على غرار أقنعة ثنائية عشوائية، تتطلب من أدراج التدرج المستندة إلى أخذ العينات، والتي تعقد التدريب ويتطلب ضبط فرط الحرارة الدقيق. آليات الاهتمام المتنقل هي بديل محدد، لكنها تفتقر إلى طريقة لتنظيم استخراج الأساس المنطقي (على سبيل المثال، للسيطرة على Sparsity من تسليط الضوء على نص أو عدد المحاذاة). في هذه الورقة، نقدم إطارا موحدا لاستخراج التفسيرات المحددة من خلال الاستدلال المحدود على رسم بياني عامل، مما يشكل طبقة مختلفة. نهجنا تخفف إلى حد كبير التدريب والأساس المنطقي، مما يتفوق بشكل عام على العمل السابق بشأن ما يأتي إلى الأداء والمعقولية للمناولة المستخرجة. نحن نقدم كذلك دراسة مقارنة للأساليب الاستوكاستيكية والحتمية لاستخراج الأساس المنطقي لتصنيف مهام الاستدلال واللغة الطبيعية، وتقييم قوة التنبؤية بشكل مشترك، ونوعية التفسيرات، والتقلبات النموذجية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

عند تعلمها دون استكشاف، تخضع النماذج المحلية لمهام التنبؤ المهيكلة لتحيز التعرض ولا يمكن تدريبها دون توجيه مفصل.التعلم التقليد النشط (AIL)، المعروف أيضا في NLP كتعلم Oracle الديناميكي، هو تقنية عامة للعمل حول هذه المشكلات من خلال السماح باستكشاف مخرج ات مختلفة في وقت التدريب.تتطلب AIl ردود الفعل Oracle: Oracle هي أي خوارزمية يمكنها، بالنظر إلى حل مرشح جزئي وشروح الذهب، ابحث عن الإخراج التالي (الحد الأدنى) الإخراج التالي لإنتاج.تصف هذه الورقة تقنية حكومية محدودة عامة لاستكشاف الأوراج.تصف هذه التقنية فعالة أيضا وسوف توسيع المهام التي يمكن استخدامها بشكل كبير.
يتم تدريب نماذج التسلسل الحالية للتسلسل لتقليل الانتروبي عبر الانتروبيا واستخدام SoftMax لحساب الاحتمالات العادية محليا على تسلسلات الهدف. على الرغم من أن هذا الإعداد قد أدى إلى نتائج قوية في مجموعة متنوعة من المهام، فإن إحدى الجوانب غير المرضية هي ا لتحيز الطول: تمنح النماذج درجات عالية لفرضيات قصيرة وعدم كفاية وغالبا ما تجعل السلسلة الفارغة The Argmax --- ما يسمى القط حصلت على لسانك مشكلة. تقدم نماذج تسلسل متناشرة مقرها ENTMAX مؤخرا حلا محتملا، نظرا لأنهم يستطيعون تقليص مساحة البحث عن طريق تعيين احتمال صفر لفرضيات سيئة، ولكن قدرتهم على التعامل مع المهام على مستوى الكلمات مع المحولات قد تم اختبارها قط. في هذا العمل، نظهر أن النماذج المستندة إلى Entmax تحل فعليا القط حصلت على مشكلة لسانك، وإزالة مصدر رئيسي لخطأ نموذج الترجمة الآلية العصبية. بالإضافة إلى ذلك، نعيد بتعميم تجانس الملصقات، وهي تقنية تنظيمية حاسمة، إلى عائلة أوسع من الخسائر الشابة الشابة، والتي تشمل كل من انتروبيا وخسائر Entmax. وضعت نماذج خسارة Entmax الناتجة عن الملصقات الناتجة حالة جديدة من الفن على تحويل Grapheme-Vooneme في Grapheme وتقديم التحسينات وخصائص معايرة أفضل على الانعطاف المورفولوجي عبر اللغات والترجمة الآلية لمدة 7 أزواج لغة.
تقوم المشفر المزدح المجرقة بإجراء استرجاع من خلال ترميز المستندات والاستعلامات في متجهات كثيفة منخفضة الأبعاد، حيث سجل كل وثيقة عن طريق المنتج الداخلي مع الاستعلام.نحن نبحث في قدرة هذه الهندسة المعمارية بالنسبة إلى نماذج كيس من الكلمات المتفرقة والشب كات العصبية الاهتمام.باستخدام كل من التحليلات النظرية والتجريبية، نقوم بإنشاء اتصالات بين بعد ترميز، الهامش بين الذهب والوثائق ذات المرتبة الأدنى، وطول الوثيقة، مما يشير إلى حد قيود في سعة الترميزات ذات الطول الثابت لدعم استرجاع الدقة الدقيقة للوثائق الطويلة.بناء على هذه الأفكار، نقترح نموذجا عصبا بسيطا يجمع بين كفاءة الترميز المزدوج مع بعض التعبير عن هياكل التعبير الأكثر تكلفة، واستكشاف الهجينة الكثيفة المتنارية للاستفادة من دقة الاسترجاع المتناقضة.تتفوق هذه النماذج بدائل قوية في استرجاع واسع النطاق.
نقدم تاريخ DART، سجل بيانات منظم في المجال المفتوح إلى مجموعة بيانات جيل النص مع أكثر من 82 ألف حالة (لعبة السهام). يمكن أن تكون التعليقات التوضيحية البيانات إلى النص عملية مكلفة، خاصة عند التعامل مع الجداول التي تعد المصدر الرئيسي للبيانات المنظمة و يحتوي على هياكل غيرية. تحقيقا لهذه الغاية، نقترح إجراءات لاستخراج ثلاث مرات الدلالية من الجداول التي ترميز هياكلها من خلال استغلال التبعيات الدلالية بين رؤوس الطاولة وعنوان الجدول. اندمج إطار عمل مواد DataSet لدينا مصادر غير متجانسة بفعالية من أنظمة التحليل الدلالي المفتوح المجال والتحريغ عن طريق استخدام التقنيات بما في ذلك التوضيح التوضيحية في علم الأطباق، زوج الإجابة السؤالية إلى تحويل الجملة التصريحي، وتوحيد المسند، كل ذلك مع الحد الأدنى من التحرير بعد التحرير. نقدم التقييم المنهجي على DART بالإضافة إلى نتائج جديدة من أحدث النتائج على WebNLG 2017 لإظهار أن Dart (1) يطرح تحديات جديدة إلى مجموعات البيانات الحالية إلى النص و (2) تسهيل التعميم خارج النطاق وبعد يمكن العثور على بيانات ورمز لدينا في https://github.com/yale-lily/dart.
يمكن أن تسترجع إمكانات المطابقة الدلالية لاسترجاع المعلومات العصبية مشاكل المرادفات والبوليزيميمي من الأساليب الرمزية.ومع ذلك، فإن التمثيلات الكثيفة النماذج العصبية أكثر ملاءمة لإعادة الترتيب، بسبب عدم كفاءةها.تمثيلات متفرق، إما في شكل رمزي أو كامن، أكثر كفاءة مع مؤشر مقلوب.أخذ مزايا التمثيلات المتناثرة والكثيفة، نقترح مخطط تمثيل ثنائي الأبعاد للغاية (UHD) مجهز بمرضية يمكن السيطرة عليها مباشرة.سعة UHD الكبيرة والحد الأدنى من الضوضاء والتدخل بين الأبعاد تسمح بالتمثيل الثنائي، والتي تعتبر فعالة للغاية للتخزين والبحث.المقترح أيضا طريقة دلامية، حيث يتم اختيار / دمج الأشرطة من طبقات متعددة من بيرت / دمجها لتمثيل الجوانب اللغوية المتنوعة.نقوم باختبار نماذجنا باستخدام سيارة MS MARCO و TREC، والتي تبين أن نماذجنا تفوقت على نماذج غير متفرقة أخرى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا