ترغب بنشر مسار تعليمي؟ اضغط هنا

تعريف إعادة صياغة المعرفة

Knowledge-Guided Paraphrase Identification

511   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتمثل التعريف بإعادة الصياغة (PI)، وهي مهمة أساسية في معالجة اللغة الطبيعية، هي تحديد ما إذا كانت الجملتين تعبر عن نفس المعنى المماثل، وهي مشكلة تصنيف ثنائية. في الآونة الأخيرة، كانت النماذج اللغوية المدربة مسبقا بيرت هي خيارا شائعا لأطر نماذج PI المختلفة، ولكن جميع الطرق الحالية تقريبا تنظر في نص مجال عام. عندما يتم تطبيق هذه الأساليب على مجال معين، لا يمكن أن تكتب النماذج الحالية تنبؤات دقيقة بسبب نقص المعرفة المهنية. في ضوء هذا التحدي، نقترح إطارا جديدا، وهو، الذي يمكن أن يستفيد من المعرفة الخارجية غير المنظمة في ويكيبيديا لتحديد المواطن بدقة. نقترح علما مخلاصة المعرفة بالمفاهيم المتعلقة بحكمات معينة من ويكيبيديا عبر نموذج BM25. بعد استرداد المعرفة المخططة ذات الصلة، يجعل التنبؤات بناء على كل من المعلومات الدلالية للجملتين ومعرفة الخطوط العريضة. إضافة إلى ذلك، نقترح آلية Gating تجميع التنبؤ الدلالي القائم على المعلومات والتنبؤ القائم على المعرفة. تتم إجراء تجارب واسعة على مجموعة بيانات عامين: العرض (مجموعة بيانات مجال علوم الكمبيوتر) و Clinicalsts2019 (مجموعة بيانات مجال الطب الحيوي). تشير النتائج إلى أن الأساليب المتوفرة التي تتفوقت على أحدث الأحوال.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تهدف توليد الصياغة الموجهة إلى Exemplar (EGPG) إلى توليد جملة مستهدفة تتوافق مع أسلوب Exemplar المحدد أثناء توسيع نطاق معلومات المحتوى من الجملة المصدر. في هذه الورقة، نقترح طريقة جديدة بهدف تعلم تمثيل أفضل للنمط والمحتوى. تحفز هذه الطريقة بشكل أساسي النجاح الأخير للتعلم المقاوم للتناقض التي أثبتت قوتها في مهام استخراج ميزة غير مدفوعة. تتمثل الفكرة في تصميم خسائرتين متباينتين فيما يتعلق بالمحتوى والأسلوب من خلال النظر في خصائص المشكلة أثناء التدريب. إحدى الممتلكات هي أن الجملة المستهدفة تشترك في نفس المحتوى مع جملة المصدر، والخصائص الثانية هي أن الجملة المستهدفة تشارك نفس النمط مع Exemplar. يتم دمج هذين الخسائرتين للتناقض في نموذج فك التشفير العام. تثبت التجارب على مجموعة بيانات اثنين، وهي QQP-Pos و Paranmt، فعالية خسائرنا القاطعة المقترحة.
في هذه الورقة، نحقق في مشكلة تعميم المجال (DG) للحصول على تحديد صياغة الإشراف (PI).نلاحظ أن أداء نماذج PI الحالية يتدهور بشكل كبير عند اختباره في مجال خارج التوزيع (OOD).نحن تخمين أنه ناجم عن التعلم الاختصار، أي هذه النماذج تميل إلى الاستفادة من الكل مات الإعلانية الفريدة لمجموعة بيانات أو مجال معين.لتخفيف هذه المشكلة وتعزيز قدرة DG، نقترح إطار PI بناء على النقل الأمثل (OT).تجبر طريقةنا على الشبكة لتعلم الميزات اللازمة لجميع الكلمات في الإدخال، مما يخفف من مشكلة التعلم الاختصار.تظهر النتائج التجريبية أن طريقتنا تعمل على تحسين قدرة DG على نماذج PI.
إعادة صياغة إعادة صياغة مهمة مهمة في معالجة اللغة الطبيعية. تركز الأشغال السابقة على توليد إعادة صياغة مستوى الجملة، مع تجاهل توليد إعادة صياغة مستوى المستند، وهي مهمة أكثر تحديا وقيمة. في هذه الورقة، نستكشف مهمة إعادة صياغة نص عن طريق الوثيقة لأول م رة والتركيز على التنوع بين الجملة من خلال النظر في إعادة كتابة الجملة وإعادة ترتيبها. نقترح Corpg (توليد إعادة صياغة البحث عن النصوص الموجهة)، والتي تتمتع بالطرازات الرسم البياني Gru لتشفير الرسم البياني لعلاقة الاتساق والحصول على تمثيل مدرك التماسك لكل جملة، والتي يمكن استخدامها لإعادة ترتيب جمل الإدخال المتعددة (المحورة). نحن نقوم بإنشاء مجموعة بيانات صياغة على مستوى الوثيقة Pseudo لتدريب Corpg. تظهر نتائج التقييم التلقائي أن Corpg تفوقت على العديد من النماذج الأساسية القوية على درجات Bertscore وتنوعها. يوضح التقييم البشري أيضا أن نموذجنا يمكن أن يولد إعادة صياغة المستندات بمزيد من التنوع والحفاظ الدلالي.
تركز هذه الورقة على إعادة صياغة إعادة صياغة النص، وهي مهمة توليد اللغة الطبيعية المدروسة على نطاق واسع في NLP.مع تطور النماذج العصبية، أظهرت أبحاث توليد إعادة صياغة التحول التدريجي إلى الأساليب العصبية في السنوات الأخيرة.وقد قدم ذلك بهيئات تمثيل سياق ي لنص المدخلات وتوليد صياغة تشبه الإنسان تشبه الإنسان بطلاقة.تقوم هذه الورقة بإجراء مناهج مختلفة لإعادة صياغة إعادة صياغة التركيز الرئيسي على الأساليب العصبية.
مشكلة طويلة الأمد مع إعادة صياغة إعادة صياغة هي الافتقار إلى إشارات الإشراف الموثوقة. في هذه الورقة، نقترح نموذجا جديدا غير منشئين من أجل إعادة صياغة إعادة صياغة إعادة صياغة نصها بناء على افتراض أن احتمالات توليد جملتين بنفس المعنى بالنظر إلى نفس الس ياق يجب أن يكون هو نفسه. مستوحاة من هذه الفكرة الأساسية، نقترح نظام خط أنابيب يتكون من إعادة صياغة ترجمة المرشحة بناء على نماذج اللغة السياقية، ومرشح المرشح باستخدام وظائف التسجيل، وإعادة صياغة التدريب النموذجي على أساس المرشحين المحددين. تقدم النموذج المقترح مزايا حول طرق إنشاء الصياغة الحالية: (1) باستخدام السياق العدواني على المعاني، يكون النموذج من إنشاء كميات ضخمة من أزواج إعادة صياغة عالية الجودة؛ (2) مزيج من المبلغ الهائل من المرشحين لإعادة صياغة الصياغة وزيادة ترويج التنوع يتجاوزون الخلاصات مع مزيد من التنوع المعجمي والنزاع؛ و (3) استخدام وظائف تسجيل التخصيب البشرية لتحديد إعادة صياغة أزواج من المرشحين، يوفر الإطار المقترح قناة للمطورين للتدخل مع عملية توليد البيانات، مما يؤدي إلى نموذج أكثر قابلية للتحكم. توضح النتائج التجريبية عبر المهام المختلفة ومجموعات البيانات أن النموذج المقترح تتفوق بشكل كبير على النهج التي يتم إعادة صياغة النصوص الموجودة في كل من الإعدادات الإشرافية وغير المدفوعة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا