ترغب بنشر مسار تعليمي؟ اضغط هنا

التخفيف من قطع البيانات من خلال تخليق البيانات، والتكبير والمناهج الدراسية لتلخيص التغذية

Mitigating Data Scarceness through Data Synthesis, Augmentation and Curriculum for Abstractive Summarization

357   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تستكشف هذه الورقة ثلاثة تقنيات معالجة البيانات البسيطة (التوليف، التعزيز، المناهج الدراسية) لتحسين نماذج تلخيص الجماعة دون الحاجة إلى أي بيانات إضافية.نقدم طريقة تخليق البيانات مع إعادة الصياغة، وهي تقنية تكبير البيانات مع خلط العينات، وتعلم المناهج الدراسية مع اثنين من مقاييس صعوبة جديدة بناء على الخصوصية والتغاضي.نقوم بإجراء تجارب لإظهار أن هذه التقنيات الثلاث يمكن أن تساعد في تحسين تلخيص الجماعي عبر نماذج تلخيص واثنين من مجموعات بيانات صغيرة مختلفة.علاوة على ذلك، نعرض أن هذه التقنيات يمكن أن تحسن الأداء عند تطبيقها بمعزل وعند دمجها.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يحقق النماذج المحددة ذات الأهداف الإشراف ذاتية الإشراف على النصوص الكبيرة على تحقيق أداء حديثة على مهام تلخيص النص الإنجليزية. ومع ذلك، فإن هذه النماذج عادة ما يتم ضبطها على مئات الآلاف من نقاط البيانات، ومتطلبات غير قابلة للتنفيذ عند تطبيق تلخيص لمج الات مخصصة جديدة. في هذا العمل، نقدم طريقة جديدة ومتعمول، تسمى Wikitransfer، للحصول على نماذج مطاطية دقيقة مسبقا للتلخيص بطريقة غير منشأة، خاصة بموجب البيانات. Wikitransfer Ground-Descrees نماذج مسبقا على الملخصات الزائفة، التي تم إنتاجها من بيانات Wikipedia العامة، والتي تحتوي على خصائص DataSet المستهدفة، مثل طول ومستوى التجريد من الملخصات المرغوبة. حقق نماذج Wikitransfer أداء موجات خارجي من بين الفن، وهو أداء التلخيص المبشط عن الصفر على مجموعة بيانات CNN-Dailymail وإظهار فعالية نهجنا على ثلاث مجموعات بيانات متنوعة إضافية. هذه النماذج هي أكثر قوة للبيانات الصاخبة وكذلك تحقيق أداء أقل أو قابلة للمقارنة قليلا باستخدام 10 و 100 أمثلة تدريبية عند مقارنة بنقل القليل من بيانات الملخصات الأخرى. لتعزيز الأداء، نؤدي إلى زيادة تكبير البيانات عبر الترجمة المستديرة الرحلة وكذلك إدخال مصطلح تنظيمي لتحسين تحويل القليل من الرصاص. لفهم دور جوانب البيانات في أداء النقل ونوعية ملخصات الإخراج الناتجة، فإننا ندرس تأثير مكونات مكونات بيانات الطاقة الدقيقة الخاصة بنا وتحليل الأداء القليل من الأداء باستخدام التقييم التلقائي والبشري.
تلقت تلخيص محادثة مبادرة إيلاء اهتمام متزايد في حين تعتمد معظم نماذج تلخيص حديثة حديثة من بين الفنون بشدة على ملخصات المشروح بين الإنسان. للحد من الاعتماد على الملخصات المسمى، في هذا العمل، نقدم مجموعة بسيطة ولكنها فعالة من طرق تكبير بيانات المحادثة (CODA) لعلمة محادثة إفراطية شبه إشراف، مثل تبادل / حذف عشوائي لإضطرب علاقات الخطاب داخل المحادثات، والحوار - الإدراج الموجه المرشد بمقاطعة تطوير المحادثات، والاستبدال القائم على الجيل الشرطي لاستبدال الكلام مع صياغةهم الناتجة بناء على سياق المحادثة. لمزيد من الاستفادة من المحادثات غير المستمرة، نجمع بين Coda مع التدريب الذاتي الصاخب على مرحلتين حيث نقوم أولا بتدريب نموذج التلخيص مسبقا على المحادثات غير المسبقة مع ملخصات زائفة، ثم ضبطها على المحادثات المسمى. توضح التجارب التي أجريت في مجموعات بيانات تلخيص المحادثة الأخيرة فعالية أساليبنا على العديد من خطوط خطوط تكبير البيانات في البيانات.
تعرض المحاضرة شرح عن علم البيانات وعلاقته بعلم الإحصاء والتعلم الآلي وحالتين دراسيتين عن دور عالم البيانات في تصميم حلول تعتمد على استخراج المعرفة من حجم كبير من البيانات المتوفرة, كما يتم عرض أهم المهام في المؤتمرات العلمية التي يمكن المشاركة بها لطلاب المعلوماتية المهتمين بهذا المجال
تعظيم البيانات غير المزعجة (UDA) هي تقنية شبه بيئية تنطبق على فقدان الاتساق لمعاقبة الاختلافات بين تنبؤات النماذج على (أ) أمثلة ملحوظة (غير مسفحة)؛ و (ب) الأمثلة الواضحة المقابلة التي تم إنتاجها عبر تكبير البيانات. في حين أن UDA اكتسبت شعبية لتصنيف ا لنصوص، فإن الأسئلة المفتوحة باقية من قرارات التصميم ضرورية وكيفية تمديد الطريقة لتسلسل مهام وضع العلامات. في هذه الورقة، نعيد فحص UDA وإظهار فعاليتها في العديد من المهام المتسلسلة. مساهمتنا الرئيسية هي دراسة تجريبية ل UDA لتأسيس مكونات الخوارزمية التي تمنح استحقاقات NLP. وخاصة، على الرغم من أن العمل السابق قد أكد على استخدام تقنيات تكبير ذكية بما في ذلك الترجمة ذات الترجمة المرجانية، نجد أن التناسق بين التنبؤات المخصصة للكلمات الملحوظة والمستبدلة غالبا ما تسفر عن فوائد قابلة للمقارنة (أو أكبر) مقارنة بنماذج الاضطرابات الأكثر تعقيدا. علاوة على ذلك، نجد أن تطبيق فقدان اتساق UDA يوفر مكاسب ذات مغزى دون أي بيانات غير قابلة للتحقيق على الإطلاق، أي في إعداد قياسي إشرافي. باختصار، لا تحتاج UDA إلى عدم إدراكها لتحقيق الكثير من فوائدها المذكورة، ولا تتطلب تكبير بيانات معقدة لتكون فعالة.
يلعب الكشف التلقائي باللغة السامة دورا أساسيا في حماية مستخدمي الوسائط الاجتماعية، وخاصة مجموعات الأقليات، من الإساءة اللفظية.ومع ذلك، فإن التحيزات تجاه بعض الصفات، بما في ذلك النوع الاجتماعي والعرق واللهجة، موجودة في معظم مجموعات البيانات التدريبية للكشف عن السمية.تحيزات تجعل النماذج المستفادة غير عادلة ويمكن أن تؤدي إلى تفاقم تهميش الناس.بالنظر إلى أن طرق الدخل الحالية لمهام فهم اللغة الطبيعية العامة لا يمكن أن تخفف بشكل فعال من التحيزات في كاشفات السمية، نقترح استخدام الترشيد الثابت (invrat)، وهو إطار نظري للعبة يتكون من مولد الأساس المنطقي والتوقع، لاستبعاد الزائفةالارتباط ببعض الأنماط النحوية (على سبيل المثال، يذكر الهوية، لهجة) إلى تسميات السمية.نظرا لإيذاء أن طريقتنا تنتج معدل إيجابي كاذب أقل في كل من الصفات المعجمية واللهائية من أساليب الدخل السابقة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا