حققت نماذج التسلسل العصبي (SEQ2SEQ) ونماذج بيرت تحسينات كبيرة في تلخيص وثائق المبادرة (الإعلانات) دون ومع مسبق التدريب، على التوالي.ومع ذلك، فإنهم يحضرون في بعض الأحيان مرارا وتكرارا عبارات المصدر غير مهم بينما يتجاهل عن طريق الخطأ تلك المهمة.نقدم آليات إعادة الإعمار على مستويين لتخفيف هذه المشكلة.يعيد إعادة تعيين مستوى التسلسل على مستوى التسلسل الوثيقة بأكملها من الطبقة المخفية من الملخص المستهدف، في حين أن كلمة تضمين المستوى يعيد إعادة إنشاء واحد من متوسط كلمة Word للمصدر في الجانب المستهدف لضمان إدراج أكبر قدر ممكن من المعلومات الهامة في الملخصبقدر الإمكان.بناء على افتراض تقيس تدابير تردد الوثيقة العكسية (IDF) مدى أهمية كلمة كلمة، فإننا نستفيد إلى زيادة أوزان جيش الدفاع الإسرائيلي في إعادة بناء مستوى التضمين لدينا.تؤدي الأطر المقترحة إلى تحسينات واعدة لمقاييس الحمر والتصنيف البشري على مجموعات بيانات تلخيص CNN / Daily البريدية وحكم الأخبار.
Neural sequence-to-sequence (Seq2Seq) models and BERT have achieved substantial improvements in abstractive document summarization (ADS) without and with pre-training, respectively. However, they sometimes repeatedly attend to unimportant source phrases while mistakenly ignore important ones. We present reconstruction mechanisms on two levels to alleviate this issue. The sequence-level reconstructor reconstructs the whole document from the hidden layer of the target summary, while the word embedding-level one rebuilds the average of word embeddings of the source at the target side to guarantee that as much critical information is included in the summary as possible. Based on the assumption that inverse document frequency (IDF) measures how important a word is, we further leverage the IDF weights in our embedding-level reconstructor. The proposed frameworks lead to promising improvements for ROUGE metrics and human rating on both the CNN/Daily Mail and Newsroom summarization datasets.
المراجع المستخدمة
https://aclanthology.org/
تعتبر Adgedding Word ضرورية لنماذج الشبكة العصبية لمختلف مهام معالجة اللغة الطبيعية. نظرا لأن كلمة تضمينها عادة ما يكون لها حجم كبير، من أجل نشر نموذج شبكة عصبي وجوده على أجهزة Edge، يجب ضغطه بشكل فعال. كانت هناك دراسة لاقتراح طريقة تقريبية منخفضة رت
استخراج الجزء الأكثر أهمية من وثائق التشريعات له قيمة عمل كبيرة لأن النصوص عادة ما تكون طويلة جدا ويصعب فهمها.الهدف من هذه المقالة هو تقييم خوارزميات مختلفة لتلخيص النص على وثائق تشريعات الاتحاد الأوروبي.يحتوي المحتوى على كلمات خاصة بالمجال.جمعنا مجم
الاكتشاف الساخرة ذات أهمية كبيرة في فهم المشاعر والآراء الحقيقية للناس.العديد من التقيمات عبر الإنترنت، مراجعات، تعليقات وسائل التواصل الاجتماعي، إلخ.لقد تم بالفعل إجراء العديد من الأبحاث بالفعل في هذا المجال، لكن معظم الباحثين درس تحليل الساركاز الإ
أظهرت نماذج واسعة النطاق على نطاق واسع عروضا قوية على العديد من توليد اللغة الطبيعية وفهم المعايير.ومع ذلك، فإن إدخال العمولة فيها لتوليد نص أكثر واقعية يظل تحديا.مستوحاة من العمل السابق على جيل المعرفة المنطقي ومنطق العموم التوليد، نقدم طريقتين لإضا
تعتمد نماذج فهم اللغة الطبيعية الحديثة على أشرطة الكلمات الفرعية مسبقا، ولكن قد تحتاج التطبيقات إلى سبب الكلمات التي لم تكن أبدا أو نادرا ما ينظر إليها أثناء الاحتجاج.نظير على أن الأمثلة التي تعتمد بشكل نقدي على كلمة ندرة هي أكثر تحديا لنماذج الاستدل