ترغب بنشر مسار تعليمي؟ اضغط هنا

معظم أساليب تلخيص المستندات النسخة الاستخراجية الحالية (MDS) تسجل كل جملة بشكل فردي واستخراج الجمل الباردة واحدا تلو الآخر لتكوين ملخص، ولديه عاطفي رئيسيين: (1) إهمال العلاقات داخل الوثائق بين الجمل؛ (2) إهمال التماسك وجواء الملخص بأكمله. في هذه الور قة، نقترح إطار عمل MDS الرواية (SGSUM) لصياغة مهمة MDS كأداة اختيار Sub-Graph، حيث تعتبر المستندات المصدر بيانيا العلاقة من الجمل (على سبيل المثال، الرسم البياني التشابه أو الرسم البياني الخطابي) والمرشح الملخصات هي الرسوم البيانية الفرعية لها. بدلا من اختيار الجمل البارزة، حدد SGSUM رسم بياني فرعي بارز من الرسم البياني العلاقة كملخص. مقارنة بالطرق التقليدية، فإن طريقةنا لها مزايا رئيسية: (1) يتم التقاط العلاقات بين الأحكام من خلال نمذجة كل من هيكل الرسم البياني لمجموعة الوثيقة بأكملها والرسوم البيانية الفرعية المرشحة؛ (2) يخرج مباشرة ملخصا دمج في شكل رسم بياني فرعي وهو أكثر إفادة وتماسك. تظهر تجارب واسعة على مجموعات بيانات متعددة الوظائف و DUC أن أسلوبنا المقترح يجلب تحسينات كبيرة على العديد من خطوط الأساس القوية. توضح نتائج التقييم البشري أيضا أن طرازنا يمكن أن ينتج ملخصات أكثر متماسكا وكفاحيا مقارنة بطرق MDS التقليدية. علاوة على ذلك، فإن الهندسة المعمارية المقترحة لديها قدرة نقل قوية من إدخال واحد إلى متعدد الوثائق، والتي يمكن أن تقلل من عنق الزجاجة في مهام MDS.
ينتج العمل الأخير بشأن تلخيص الرأي ملخصات عامة بناء على مجموعة من مراجعات المدخلات وشعبية الآراء المعبر بها فيها.في هذه الورقة، نقترح نهج يسمح بتوليد ملخصات مخصصة بناء على استفسارات الجانب (E.G.، ووصف موقع وغرفة فندق).باستخدام مراجعة Corpus، نقوم بإن شاء مجموعة بيانات تدريبية صناعية من (مراجعة، ملخص) أزواج مخصبة بوحدات التحكم في الارتفاع التي يسببها نموذج تعليمي متعدد الأمثلة يتنبأ بجوانب وثيقة على مستويات مختلفة من الحبيبية.نحن نغلق نموذج مسبق باستخدام مجموعة البيانات الاصطناعية لدينا وإنشاء ملخصات محددة من جانب جانب من خلال تعديل وحدات التحكم في الجانب.تشير التجارب في معيارين إلى أن نموذجنا يفوق على الحالة السابقة من الفن ويولد ملخصات شخصية عن طريق التحكم في عدد الجوانب التي تمت مناقشتها فيها.
كانت جودة تلخيص الجماعة لديها تحسينات كبيرة منذ تقنيات محاكاة اللغة الأخيرة.ومع ذلك، هناك حاليا نقص في مجموعات البيانات للاحتياجات المتزايدة لتطبيقات تلخيص المحادثة.وبالتالي نحن جمعنا منتديات، مجموعة بيانات ملخصة محادثة متنوعة وعالية الجودة مع ملخصات مكتوبة بشرية.تتم جمع المحادثات في DiversionMum DataSet من مجموعة واسعة من منتديات الإنترنت.لجعل مجموعة البيانات قابلة للتوسيع بسهولة، نقوم أيضا بإصدار عملية إنشاء DataSet.تظهر تجاربنا أن النماذج المدربة على Forumsum لديها أفضل صفر - لقدرة على تحويل القليل من الطوابق إلى مجموعات البيانات الأخرى من بيانات ملخصات الدردشة الكبيرة الحالية Samsum.نظهر أيضا أن استخدام Corpus Corpustation للمحدثين يحسن ما قبل التدريب على تحسين جودة نموذج تلخيص الدردشة.
التلخصات المتبقية هي مهمة صعبة لا توجد موارد علمية عبر اللغات المتاحة حاليا. للتغلب على عدم وجود مورد عالي الجودة، نقدم مجموعة بيانات جديدة لتلخيص أحادي اللغة وتبادر بالنظر إلى الزوج الإنجليزي الألماني. نقوم بجمع بيانات عالية الجودة العالية والعالمية من SPEKTRUM DER WISSENSCHAFT، والتي تنشر ملخصات علمية ألمانية مكتوب بشرية من مقالات علمية باللغة الإنجليزية حول مختلف الموضوعات. مجموعة بيانات Spektrum التي تم إنشاؤها صغيرة؛ لذلك، نحث مجموعة بيانات مماثلة من بوابة علوم ويكيبيديا لاستكمالها. تتكون DataSet Wikipedia من مقالات باللغة الإنجليزية والألمانية، والتي يمكن استخدامها في تلخيص أحادي ومقاطع. علاوة على ذلك، نقدم تحليلا كميا لمجموعات البيانات ونتائج التجارب التجريبية مع العديد من نماذج تلخيص الاستخراجية والمخفية القائمة. تشير النتائج إلى جدوى وفيد بيانات البيانات المقترحة لتلخيص أحادي وطني وتبادل اللغات.
تم اعتماد الأساليب القائمة على الرسم البياني مؤخرا لتلخيص نص مبادرة.ومع ذلك، فإن الأساليب القائمة على الرسم البياني الموجودة فقط تنظر فقط في علاقات الكلمات أو معلومات الهيكل، والتي تهمل الارتباط بينهما.في وقت واحد التقاط علاقات الكلمة ومعلومات الهيكل من الجمل، نقترح شبكة الرسم البياني المزدوج الرواية لتلخيص جملة الاختيارات.على وجه التحديد، نقوم أولا بإنشاء رسم بياني للسيناريو الدلالي والكلمة الدلالية الرسم البياني على أساس FRAMENET، وبالتالي تعلم تمثيلاتها وطريقة الانصهار الرسم البياني للتصميم لتعزيز ارتباطها والحصول على تمثيل دلالي أفضل لجيل الملخص.تظهر النتائج التجريبية النموذج لدينا تفوق الأساليب الموجودة في مجموعة بيانات قياسية شعبية، I.E.، GIGAWORD و DUC 2004.
اكتسبت أنظمة تلخيص الجماع العصبي تقدما كبيرا في السنوات الأخيرة.ومع ذلك، غالبا ما تنتج تلخيص التلوث في كثير من الأحيان بيانات غير متناسقة أو حقائق كاذبة.كيفية توليد الملخصات التجريدية بشكل كبير تلقائيافي هذه الورقة، اقترحنا نهجا فعالا معزز بيانات تكب ير البيانات الفعالة لتشكيل مجموعة بيانات الاتساق الواقعية.بناء على مجموعة البيانات الاصطناعية، ندرب نموذجا للتقييم التي لا يمكن أن تجعل تمييز التناسق الواقعي الدقيق والقوي فحسب، بل قادرا أيضا على جعل الأخطاء الواقعية القابلة للتفسير تتبعها توزيع التدرج السابق على توزيع الرمز المميز.توضح إجراء التجارب والتحليل في ملخصات التلخيص المشروح العام ومجموعات بيانات الاتساق واقعية نهجنا فعال ومعقول.
تلخيص استخراج الجملة تقصر وثيقة عن طريق اختيار الجمل للحصول على ملخص مع الحفاظ على محتوياتها المهمة.ومع ذلك، فإن إنشاء ملخص متماسك وغني مفيد صلب باستخدام ترميز مدرب مسبقا مدربا مسبقا لأنه لا يتم تدريبه صراحة على تمثيل معلومات الجمل في وثيقة.نقترح نمو ذج تلخيص الاستخراج المستخرج في الأشجار المتداخلة على روبرتا (Neroberta)، حيث تتكون هياكل الأشجار المتداخلة من أشجار النحوية والخطاب في وثيقة معينة.النتائج التجريبية على Dataset CNN / DailyMail أظهرت أن Neroberta تتفوق النماذج الأساسية في Rouge.كما أظهرت نتائج التقييم البشري أن Neroberta تحقق نتائج أفضل بكثير من خطوط الأساس من حيث الاتساق وتصل إلى درجات قابلة للمقارنة إلى النماذج التي من بين الفنون.
نحن نعتبر مشكلة تلخيص المبشير الذي تركز على الموضوع، حيث يكون الهدف هو إنشاء ملخص إغراق يركز على موضوع معين، عبارة واحدة أو عدة كلمات.نحن نفترض أن مهمة توليد ملخصات تركز على موضوع يمكن تحسينها عن طريق إظهار النموذج ما يجب ألا تركز عليه.نقدم نهج تعليم ي عميق لتعزيز التلخصات المبخرية التي تركز على الموضوع، تدربت على المكافآت مع خط الأساس من الأمثلة السلبية الجديدة.نحن نحدد المدخلات في هذه المشكلة كنص المصدر الذي سبقه الموضوع.نحن نتكيف مع بيانات CNN-Daily Mail و Summarization New York Times Farmarization لهذه المهمة.ثم نوضح بعد ذلك من خلال تجارب في المكافآت الحالية أن استخدام خط الأساس للمثال السلبي يمكن أن يتفوق على استخدام خط الأساس الحرج الذاتي، في روج، برث، مقاييس التقييم البشري.
يحدد تلخيص الجدول الزمني الأحداث الرئيسية من مجموعة أخبار ويصفها بعد النظام الزمني، مع التواريخ الرئيسية الموسومة. الأساليب السابقة تولد عموما ملخصات بشكل منفصل لكل تاريخ بعد تحديد تواريخ الأحداث الرئيسية. تطل هذه الطرق على الأحداث "Intra-Interra -ys ures (الحجج) والهياكل المختلفة (اتصالات أحداث الأحداث). بعد مسار مختلف، نقترح تمثيل المقالات الإخبارية كشركة بيانية حدث، وبالتالي تصبح التلخيص ضغط الرسم البياني بأكمله إلى الرسم البياني الفرعي البارز. الفرضية الرئيسية هي أن الأحداث المتصلة بها من خلال الوسائط المشتركة والنظام الزمني تصور هيكل عظمي جدول زمني، يحتوي على أحداث ذات صلة من الناحية الدلوية، متماسكة مؤقتا ومربحا هيكليا في الرسم البياني العالمي للحدث. يتم بعد ذلك إدخال مسافة النقل الأمثل التي تدركها على تعلم نموذج الضغط بطريقة غير منشأة. نظرا لأن نهجنا يتحسن بشكل كبير على حالة الفن على ثلاث مجموعات بيانات حقيقية، بما في ذلك معايير قياسية عامة ومجموعة بيانات الطوارئ 10 المجمعة حديثا.
أدت تقنيات الاحتجاج بالاستفادة من مجموعات البيانات الهائلة تقدم التطورات الأخيرة في تلخيص النص.في حين أن التفسيرات الشعبية تشير إلى أن تحويل المعرفة تحتفظ بمزايا الاحتجاط، فإن القليل معروف عن سبب عمله أو ما الذي يجعل مهمة محتملة أو مجموعة بيانات مناس بة.في هذه الورقة، نتحدى قصة نقل المعرفة، مما يدل على أن الاحيلية على المستندات التي تتألف من حرف N-gram المحدد عشوائيا، يمكننا أن نتطابق تقريبا من أداء النماذج المحددة على الفورورا الحقيقية.هذا العمل يحمل وعد بالقضاء على upstream corpora، والتي قد تخفف بعض المخاوف بشأن لغة مسيئة، التحيز، وقضايا حقوق الطبع والنشر.لمعرفة ما إذا كانت الفائدة الصغيرة المتبقية لاستخدام البيانات الحقيقية يمكن أن يتم حسابها من قبل هيكل مهمة محتملة، نقوم بتصميم العديد من المهام التي تحفزها دراسة نوعية لعلمة كورسا.ومع ذلك، فإن هذه المهام تمنح أي فائدة ملموسة، مما يترك فتح إمكانية دور صغير لنقل المعرفة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا