نقترح نظام توليد سيناريو حوار شخصي ينقل معلومات فعالة ومتماسكة مع طريقة تلخيص الاستخراجية في الوقت الفعلي محسن بواسطة جهاز ISING.يتم صياغة مشكلة التوزيع كمشكلة تحسين ثنائي غير مكسومة من الدرجة الثانية، والتي تستخرج الجمل التي تعظيم مجموع درجة فائدة ا
لمستخدم في جمل الوثائق مع هيكل الخطاب لكل وثيقة ووقت الكلام الكلي كقيود.لتقييم الطريقة المقترحة، قمنا ببناء مقالة إخبارية كوربوس بشراح بنية الخطاب ومحات المستخدمين ومصالحهم في الجمل والمواضيع.أكدت النتائج التجريبية أن المروحة الرقمية، التي تعد آلة ISINE HELLING مقرا لها، يمكن أن تحل طراز Quebo الخاص بنا في وقت عملي دون انتهاك القيود باستخدام هذه البيانات.
كان هناك تقدم كبير في مجال الإجابة على الأسئلة الاستخراجية (EQA) في السنوات الأخيرة.ومع ذلك، فإن معظمهم يعتمدون على التوضيحية الخاصة بالإجابة في الممرات المقابلة.في هذا العمل، نتعلم مشكلة EQA عندما لا توجد شروح موجودة للإجابة فترة الإجابة، أي، عندما
تحتوي DataSet على أسئلة فقط والممرات المقابلة.تعتمد طريقتنا على الترميز التلقائي للسؤال الذي يؤدي سؤالا يرد على المهمة أثناء الترميز ومهمة توليد الأسئلة أثناء فك التشفير.نظهر أن طريقتنا تعمل بشكل جيد في إعداد صفرية ويمكن أن توفر خسارة إضافية لتعزيز الأداء ل EQA.
تهدف تلخيص النص الاستخراجي إلى استخراج الأحكام الأكثر تمثيلا من وثيقة معينة كملخص لها. لاستخراج ملخص جيد من وثيقة نصية طويلة، يلعب تضمين الجملة دورا مهما. تتمتع الدراسات الحديثة باختصار شبكات عصبية لالتقاط العلاقة بين العلاقة بين الأمريكيين (مثل الرس
م البياني للخطوط) داخل الوثائق لتعلم تضمين الجملة السياقية. ومع ذلك، فإن تلك النهج لا تنظر في أنواع متعددة من العلاقات بين العلاقات بين العلاقات بين العلاقات بين العلاقات العامة (على سبيل المثال، علاقات التدوين الدلالي والاتصال الطبيعي)، ولا علاقات نموذجية نموذجية (E.G، التشابه الدلالي والعلاقة الأساسية بين الكلمات). لمعالجة هذه المشكلات، نقترح شبكة تفصيلية رواية متعددة الأجزاء (متعددة الجنسيات) إلى نموذج أنواع مختلفة من العلاقات بين الجمل والكلمات. استنادا إلى Multi-GCN، نقترح طراز موجز جراب متعدد الأطراف (متعدد الأجراس) لتلخيص نص استخراج. أخيرا، نقوم بتقييم النماذج المقترحة على مجموعة بيانات CNN / DailyMaMail القياسية لإظهار فعالية طريقتنا.
لالتقاط بنية الرسم البياني الدلالي من النص الخام، يتم بناء معظم طرق التلخيص الموجودة على GNNS مع نموذج مدرب مسبقا.ومع ذلك، فإن هذه الأساليب تعاني من إجراءات مرهقة وحسابات غير فعالة وثائق نصية طويلة.لتخفيف هذه المشكلات، تقترح هذه الورقة HETFORMER، وهو
نموذج مدرب مسبقا من المحولات مع انتباه متفرج متعدد الحبيبات لتلخيص الاستخراجي لفترة طويلة.على وجه التحديد، نقوم بالنماذج أنواع مختلفة من العقد الدلالية في النص الخام كشركة بيانية غير متجانسة محتملة وتعلم العلاقات المخللة بشكل مباشر (حواف) بين العقد بواسطة المحول.تظهر تجارب واسعة النطاق على كل من مهام تلخيص مستندات واحدة ومتعددة المستندات أن HETFORMER تحقق أداء حديثة في Rouge F1 أثناء استخدام ذاكرة أقل ومعلمات أقل.
تهدف تلخيص النص الاستخراجي على مستوى الجملة إلى تحديد جمل مهمة من وثيقة معينة.ومع ذلك، فإن الأمر صعب للغاية لنموذج أهمية الجمل.في هذه الورقة، نقترح نمذجة جملة محسنة من الإطار الدلالي على الرواية لتلخيص الاستخراج، والتي ترفع دلالات الإطار لنموذج الجمل
من كل من مستوى الجملة داخل الجملة ومستوى الجملة بين الجملة، مما يسهل مهمة تلخيص النص.على وجه الخصوص، ترفع دلالات المستوى داخل الجملة عناصر الإطارات وإطار العناصر لنموذج الهيكل الدلالي الداخلي في غضون جملة، في حين أن دلالات مستوى المستوى بين الجملة تستفيد العلاقات بالإطار إلى الإطارات إلى العلاقات النموذجية بين الجمل.تثبت تجارب واسعة على اثنين من Corpus Corpus CNN / DM و NYT أن نموذجنا يتفوق على ستة أساليب حديثة بشكل كبير.
تم تلخيص الاستخراج هو الدعامة الرئيسية للتلخيص التلقائي لعدة عقود. على الرغم من كل التقدم المحرز، ما زالت الملخصات الاستخراجية تعاني من أوجه القصور بما في ذلك مشاكل Aquerence الناشئة عن استخراج الجمل بعيدا عن سياقها الأصلي في المستند المصدر. هذا يؤثر
على تماسك وكمية ملخصات الاستخراجية. في هذا العمل، نقترح خطوة خفيفة الوزن لتحرير الوزن للملخصات الاستخراجية التي تقوم بمراكز حول قرار لغز واحد: استئناف عبارات الاسم. نقوم بإجراء دراسات التقييم البشرية التي تظهر أن قضاة الخبراء البشري يفضلون بشكل كبير إنتاج نظامنا المقترح على الملخصات الأصلية. علاوة على ذلك، بناء على دراسة تقييم تلقائي، نقدم دليلا على قدرة نظامنا على توليد القرارات اللغوية التي تؤدي إلى تحسين ملخصات الاستخراجية. نرسم أيضا رؤى حول كيفية استغلال النظام الأوتوماتيكي بعض الإشارات المحلية المتعلقة بأسلوب كتابة نصوص المقال الرئيسية أو النصوص الموجزة لجعل القرارات، بدلا من التفكير حول السياقات بشكل عملي.
تكتسب توضيحات اللغة الطبيعية (NL) من التنبؤات النموذجية شعبية كوسيلة لفهم القرارات والتحقق منها من قبل النماذج المدربة مسبقا كبيرة من الصندوق الأسود، للمهام مثل الإجابة على الأسئلة (QA) والتحقق من الحقائق. مؤخرا، أثبتت التسلسل المدرب مسبقا إلى نماذج
التسلسل (SEQ2SEQ) أن تكون فعالة للغاية في اتخاذ التنبؤ المشترك، بالإضافة إلى توليد تفسيرات NL. ومع ذلك، هذه النماذج لديها العديد من أوجه القصور؛ يمكنهم تصنيع توضيحات حتى بالنسبة للتنبؤات غير الصحيحة، فمن الصعب التكيف مع مستندات الإدخال الطويلة، وتتدرب تدريبها كمية كبيرة من البيانات المسمى. في هذه الورقة، نطور FID-EX، والتي تعالج هذه العيوب لنماذج SEQ2SeQ بقلم: 1) إدخال علامات جملة للقضاء على تلفيق التفسير من خلال تشجيع الجيل الاستخراجي، 2) باستخدام بنية الانصهار في وحدة فك التشفير للتعامل مع سياقات الإدخال الطويلة، و 3) توسيط الصغار على ضبط مجموعات بيانات QA المجال المفتوحة المهيكلة لتحسين أداء القليل من الطلقات. تحسن FID-السابقين بشكل كبير على العمل السابق من حيث مقاييس التفسير ودقة المهام على خمس مهام من المعيار لشرح الممحاة في كل من إعدادات الإشراف بالكامل وعدد القليلة.
تلخيص استخراج الجملة تقصر وثيقة عن طريق اختيار الجمل للحصول على ملخص مع الحفاظ على محتوياتها المهمة.ومع ذلك، فإن إنشاء ملخص متماسك وغني مفيد صلب باستخدام ترميز مدرب مسبقا مدربا مسبقا لأنه لا يتم تدريبه صراحة على تمثيل معلومات الجمل في وثيقة.نقترح نمو
ذج تلخيص الاستخراج المستخرج في الأشجار المتداخلة على روبرتا (Neroberta)، حيث تتكون هياكل الأشجار المتداخلة من أشجار النحوية والخطاب في وثيقة معينة.النتائج التجريبية على Dataset CNN / DailyMail أظهرت أن Neroberta تتفوق النماذج الأساسية في Rouge.كما أظهرت نتائج التقييم البشري أن Neroberta تحقق نتائج أفضل بكثير من خطوط الأساس من حيث الاتساق وتصل إلى درجات قابلة للمقارنة إلى النماذج التي من بين الفنون.
تهدف التلخيص التلقائي إلى استخراج معلومات مهمة من كميات كبيرة من البيانات النصية من أجل إنشاء إصدار أقصر من النصوص الأصلية مع الحفاظ على معلوماتها. تعتمد تدريب نماذج تلخيص الاستخراجية التقليدية بشكل كبير على الملصقات المهندسة البشرية مثل التعليقات ال
توضيحية على مستوى الجملة للجدارة القصيرة. ومع ذلك، في العديد من حالات الاستخدام، فإن هذه الملصقات المهندسة البشرية غير موجودة وتشريح يدويا الآلاف من المستندات لغرض نماذج التدريب قد لا تكون ممكنة. من ناحية أخرى، غالبا ما تكون إشارات غير مباشرة للتلخيص متاحة، مثل إجراءات الوكيل لحوارات خدمة العملاء، العناوين الرئيسية للمقالات الإخبارية، التشخيص للسجلات الصحية الإلكترونية، إلخ. في هذه الورقة، نقوم بتطوير إطار عام يولد تلخيصا استخراجا نتيجة ثانوية من مهام التعلم الإشراف للإشارات غير المباشرة عبر مساعدة آلية الاهتمام. نختبر نماذجنا على حوارات خدمة العملاء ونتائج التجريبية أظهرت أن نماذجنا يمكن أن تختار بشكل موثوق الجمل والكلمات الإعلامية للتلخيص التلقائي.
تعد Disambiguation Sense (WSD) مهمة تاريخية NLP تهدف إلى ربط الكلمات في سياقات المخزونات المنفصلة، وعادة ما يلقي بمثابة مهمة تصنيف متعدد العلامات. في الآونة الأخيرة، استخدمت العديد من الأساليب العصبية تعاريف المعنى التي تمثل أفضل معاني الكلمة. ومع
ذلك، فإن هذه الأساليب لا تلاحظ جملة الإدخال والمرشحين لتعريف الشعور مرة واحدة، وبالتالي يحتمل أن يقلل من أداء النموذج وقوة التعميم. نحن نتعامل مع هذه المشكلة عن طريق إعادة صياغة WSD كمشكلة استخراج تمتد --- ما الذي وصفناه بالمعنى الاستخراجي الفهم (ESC) --- واقتراح إشراف، وهي عبارة عن بنية عصبية قائمة على المحولات لهذه الصيغة الجديدة. عن طريق مجموعة واسعة من التجارب، نظهر أن ESC أطلق العنان للإمكانات الكاملة لطرازنا، مما يؤدي إلى تجاوز جميع منافسيها ووضع دولة جديدة من الفن في مهمة WSD الإنجليزية. في السيناريو القليل من اللقطات، يثبت الإشراق استغلال بيانات التدريب بكفاءة، حيث تحقق نفس الأداء كأقرب منافسها أثناء الاعتماد على التعليقات التوضيحية أقل ثلاث مرات تقريبا. علاوة على ذلك، يمكن للإنسير أن تجمع بين البيانات المشروحة مع الحواس من الموارد المعجمية المختلفة، وتحقيق العروض التي كانت خارج متناول الجميع. يتوفر النموذج مع البيانات في https://github.com/sapienzanlp/sc.