ترغب بنشر مسار تعليمي؟ اضغط هنا

تيتا: نموذج تفاعل ذو مرحلتين ومطابقة النص

TITA: A Two-stage Interaction and Topic-Aware Text Matching Model

220   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نركز على مشكلة الكلمات الرئيسية ومطابقة المستندات من خلال النظر في مستويات ذات صلة مختلفة. في نظام توصيتنا، يتبع أشخاص مختلفون الكلمات الرئيسية الساخنة المختلفة باهتمام. نحتاج إلى إرفاق المستندات إلى كل كلمة رئيسية ثم توزيع المستندات على الأشخاص الذين يتبعون هذه الكلمات الرئيسية. يجب أن تحتوي المستندات المثالية على نفس الموضوع مع الكلمة الأساسية، والتي نسميها ذات أهمية تدرك الموضوع. بمعنى آخر، وثائق الأهمية ذات الصلة بالموضوع أفضل من تلك الأهمية جزئيا في هذا التطبيق. ومع ذلك، فإن المهام السابقة لا تحدد أبدا أهمية علم الموضوع بوضوح. لمعالجة هذه المشكلة، نحدد صلة ثلاثية المستوى بمهمة مطابقة الوثيقة للكلمة الرئيسية: الأهمية ذات الصلة بالموضوع، والأهمية جزئيا والأهمية. لالتقاط الأهمية بين الكلمة الرئيسية القصيرة والوثيقة في المستويات الثلاثة المذكورة أعلاه، لا ينبغي لنا الجمع بين الموضوع الكامن فقط من الوثيقة بتمثيلها العصبي العميق، ولكن أيضا التفاعلات المعقدة النموذجية بين الكلمة الرئيسية والوثيقة. تحقيقا لهذه الغاية، نقترح نموذجا متطابقا على تفاعل ثنائي مرحلتين ومطابقة النص (TITA). من حيث الموضوع - أدرك "، نقدم نموذج موضوع عصبي لتحليل موضوع المستند ثم استخدامه لمزيد من تشفير المستند. من حيث التفاعل من مرحلتين "، نقترح مراحل متتالية لنموذج التفاعلات المعقدة بين الكلمة الرئيسية والوثيقة. تكشف التجارب الواسعة أن تيتا تفوقت على خطوط الأساس الأخرى المصممة بشكل جيد وتظهر أداء ممتاز في نظام توصيتنا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نماذج الموضوعات العصبية (NTMS) تطبيق الشبكات العصبية العميقة إلى نمذجة الموضوعات. على الرغم من نجاحها، تجاهل NTMS عموما جائبا مهمين: (1) فقط يتم استخدام معلومات عدد الكلمات على مستوى المستند للتدريب، في حين يتم تجاهل المزيد من المعلومات ذات المستوى ا لجميل على مستوى الجملة، و (2) المعرفة الدلالية الخارجية فيما يتعلق بالوثائق، الجمل والكلمات لم يتم استغلالها للتدريب. لمعالجة هذه المشكلات، نقترح نموذج NTM (VAE) AutoNCoder (VAE) بشكل مشترك إعادة بناء الجملة وكلمة الوثيقة التي تهمها مجموعات من المبيعات الموضعية في كيس الكلمات (القوس) و EMBEDDINGS الدلالي المدرب مسبقا. يتم تحويل المدينات المدربة مسبقا لأول مرة إلى مساحة موضة كامنة مشتركة لمواءمة دلالاتها مع تضمين القوس. يتميز نموذجنا أيضا باختلاف KL هرمي للاستفادة من تضمينات كل وثيقة لتوسيع نطاق جملهم، مما يدفع المزيد من الاهتمام للجمل ذات الصلة الدولى. أظهرت كل من التجارب الكمية والنوعية فعالية نموذجنا في 1) خفض أخطاء إعادة الإعمار على كل من المستويات الجملة والوثائق، و 2) اكتشاف موضوعات أكثر تماسكا من مجموعات بيانات العالم الحقيقي.
تم تحقيق معالم رائعة في نص مطابقة من خلال اعتماد آلية انتباه متقاطعة لالتقاط الروابط الدلالية ذات الصلة بين تمثيلين عقديين.ومع ذلك، يركز الاهتمام العادي عبر مستوى الروابط على مستوى الكلمات بين تسلسل المدخلات، وإهمال أهمية المعلومات السياقية.نقترح شبك ة التفاعل المعرفة في السياق (عملة معدنية) لمحاذاة متسلسلتين بشكل صحيح وتستنتج علاقتها الدلالية.على وجه التحديد، يتضمن كل كتلة تفاعل (1) آلية اعتبارية إعلامية في السياق لإدماج المعلومات السياقية بفعالية عند محاذاة متتسلالات، و (2) طبقة انصهار بوابة لتمثيلات محاذاة محاذاة مرنة.نحن نطبق كتل تفاعلية مكدسة متعددة لإنتاج محاذاة على مستويات مختلفة وتحسين نتائج الانتباه تدريجيا.تجارب على اثنين من مجموعات بيانات مطابقة الأسئلة والتحليلات التفصيلية توضح فعالية نموذجنا.
باللغة العربية، يتم استخدام علامات التشكيل لتحديد المعاني وكذلك النطق.ومع ذلك، غالبا ما يتم حذف الدروع من النصوص المكتوبة، مما يزيد من عدد المعاني والنطوقتين المحتملة.هذا يؤدي إلى نص غامض ويجعل العملية الحسابية على النص غير المسموح به أكثر صعوبة.في ه ذه الورقة، نقترح نموذج إعماري لغوي للترشف عن النص العربي (لاماد).في لاماد، يتم تقديم تمثيل ميزة لغوية جديدة، والذي يستخدم كل من ملامح الكلمة والأحرف السياقية.بعد ذلك، يقترح آلية الاهتمام اللغوي التقاط الميزات اللغوية المهمة.بالإضافة إلى ذلك، نستكشف تأثير الميزات اللغوية المستخرجة من النص على درج النص العربي (ATD) عن طريق إدخالها لآلية الاهتمام اللغوي.توضح النتائج التجريبية الواسعة على ثلاث مجموعات بيانات بأحجام مختلفة أن لاماد تتفوق على النماذج الحالية للحالة.
تعد اعتدال تعليقات القارئ مشكلة كبيرة لمنصات الأخبار عبر الإنترنت.هنا، نقوم بتجربة النماذج للاعتدال التلقائي، باستخدام مجموعة بيانات من التعليقات من جريدة كرواتية شعبية.يوضح تحليلنا أنه في حين أن التعليقات التي تنتهك القواعد الاعتدالية تشترك في الغال ب على ميزات اللغوية والمواضيعية المشتركة، يختلف محتواها عبر أقسام الجريدة المختلفة.لذلك، نجعل نماذجنا تدرك موضوعنا، دمج الميزات الدلالية من نموذج موضوع في قرار التصنيف.تظهر نتائجنا أن معلومات الموضوع تعمل على تحسين أداء النموذج، ويزيد من ثقتها في المخرجات الصحيحة، وتساعدنا على فهم مخرجات النموذج.
يحتوي نموذج HIAGM النموذجي الحالي على تصنيف النص التسلسل الهرمي وجود قيودان. أولا، يربط كل نموذج نصي مع جميع الملصقات في DataSet التي تحتوي على معلومات غير ذات صلة. ثانيا، لا ينظر في أي عائق إحصائي على تمثيلات التسمية المستفادة من تشفير الهيكل، في حي ن ثبت أن القيود المفروضة على تعلم التمثيل أنها مفيدة في العمل السابق. في هذه الورقة، نقترح HTCINFOMAX لمعالجة هذه المشكلات عن طريق إدخال تعظيم المعلومات التي تتضمن وحدتي: تعظيم المعلومات المتبادلة النصية وتسمية التسمية مطابقة مسبقة. الوحدة النمطية الأولى يمكن أن تصمم التفاعل بين كل نموذج نصية وتسميات الحقيقة الأرضية صراحة التي تتصفح المعلومات غير ذات الصلة. والثاني يشجع تشفير الهيكل على تعلم تمثيلات أفضل مع الخصائص المرجوة لجميع الملصقات التي يمكن أن تتعامل بشكل أفضل مع عدم توازن العلامة في تصنيف النص الهرمي. النتائج التجريبية على اثنين من مجموعات البيانات القياسية توضح فعالية HTCINFOMAX المقترحة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا