ترغب بنشر مسار تعليمي؟ اضغط هنا

المحادثات الإنسانية تتطور بشكل طبيعي حول مواضيع مختلفة والتحرك بطلاقة بينهما.في البحوث على أنظمة الحوار، غالبا ما يتم تجاهل القدرة على الانتقال بنشاط وسلاسة إلى مواضيع جديدة.في هذه الورقة، نقدم TIAGE، وهو مؤشر مربع حوار مدرك مواضيع جديد يستخدم باستخد ام التعليقات التوضيحية البشرية على نوبات الموضوع.استنادا إلى TIAGE، نقدم ثلاث مهام للتحقيق في سيناريوهات مختلفة من النمذجة التي تحول المواضيع في إعدادات الحوار: الكشف عن موضوع التحول، وموضوع تحول توليد استجابة استجابة وتوليد التدريب على الموضوع.تشير التجارب في هذه المهام إلى أن إشارات التحول في Tiage مفيدة لتوليد استجابة الموضوع.من ناحية أخرى، ما زالت أنظمة الحوار تكافح لتحديد وقت تغيير الموضوع.يشير هذا إلى أن هناك حاجة إلى مزيد من الأبحاث في نمذجة الحوار Topic-Shift Cy.
نماذج الموضوعات العصبية (NTMS) تطبيق الشبكات العصبية العميقة إلى نمذجة الموضوعات. على الرغم من نجاحها، تجاهل NTMS عموما جائبا مهمين: (1) فقط يتم استخدام معلومات عدد الكلمات على مستوى المستند للتدريب، في حين يتم تجاهل المزيد من المعلومات ذات المستوى ا لجميل على مستوى الجملة، و (2) المعرفة الدلالية الخارجية فيما يتعلق بالوثائق، الجمل والكلمات لم يتم استغلالها للتدريب. لمعالجة هذه المشكلات، نقترح نموذج NTM (VAE) AutoNCoder (VAE) بشكل مشترك إعادة بناء الجملة وكلمة الوثيقة التي تهمها مجموعات من المبيعات الموضعية في كيس الكلمات (القوس) و EMBEDDINGS الدلالي المدرب مسبقا. يتم تحويل المدينات المدربة مسبقا لأول مرة إلى مساحة موضة كامنة مشتركة لمواءمة دلالاتها مع تضمين القوس. يتميز نموذجنا أيضا باختلاف KL هرمي للاستفادة من تضمينات كل وثيقة لتوسيع نطاق جملهم، مما يدفع المزيد من الاهتمام للجمل ذات الصلة الدولى. أظهرت كل من التجارب الكمية والنوعية فعالية نموذجنا في 1) خفض أخطاء إعادة الإعمار على كل من المستويات الجملة والوثائق، و 2) اكتشاف موضوعات أكثر تماسكا من مجموعات بيانات العالم الحقيقي.
نحن نعتبر مشكلة تلخيص المبشير الذي تركز على الموضوع، حيث يكون الهدف هو إنشاء ملخص إغراق يركز على موضوع معين، عبارة واحدة أو عدة كلمات.نحن نفترض أن مهمة توليد ملخصات تركز على موضوع يمكن تحسينها عن طريق إظهار النموذج ما يجب ألا تركز عليه.نقدم نهج تعليم ي عميق لتعزيز التلخصات المبخرية التي تركز على الموضوع، تدربت على المكافآت مع خط الأساس من الأمثلة السلبية الجديدة.نحن نحدد المدخلات في هذه المشكلة كنص المصدر الذي سبقه الموضوع.نحن نتكيف مع بيانات CNN-Daily Mail و Summarization New York Times Farmarization لهذه المهمة.ثم نوضح بعد ذلك من خلال تجارب في المكافآت الحالية أن استخدام خط الأساس للمثال السلبي يمكن أن يتفوق على استخدام خط الأساس الحرج الذاتي، في روج، برث، مقاييس التقييم البشري.
نقطة حرجة في تلخيص المستندات المتعددة (MDS) هي معرفة العلاقات بين مختلف الوثائق. في هذه الورقة، نقترح نموذجا جديدا للمغادرات الرواية، حيث نمثل مستندات متعددة كشركة بيانية غير متجانسة، حيث أخذت العقد الدلالية من التحبيبات المختلفة في الاعتبار، ثم قم ب تطبيق إطار رسم بياني للتسلسل لتوليد ملخصات. علاوة على ذلك، فإننا نوظف نموذج موضوع عصبي لاستكشاف المواضيع الكامنة المشتركة التي يمكن أن تكون بمثابة وحدات دلالية عبر الوثيقة لتسجيل مستندات مختلفة وتوفير معلومات عالمية لتوجيه الجيل الموجز. نظرا لأن استخراج الموضوع يمكن أن ينظر إليه كنوع خاص من التلخيص الذي يلخص النصوص "نصوص" في شكل مجردة أكثر، أي توزيع موضوعي، نعتمد استراتيجية تعليمية متعددة المهام لتدريب المظهر والتلخيص المشترك، مما يسمح للترقية بعضهم البعض. توضح النتائج التجريبية على مجموعة بيانات الأخبار المتعددة أن نموذجنا يتفوق على نماذج MDS السابقة في كل من درجات Rouge والتقييم البشري، وفي الوقت نفسه يتعلم موضوعات عالية الجودة.
في هذا العمل، ندرس مهمة تصنيف النصوص القانونية المكتوبة باللغة اليونانية. نقدم واجعلنا متاحا علنا ​​مجموعة بيانات جديدة تستند إلى التشريعات اليونانية، والتي تتكون من أكثر من 47 ألف مسؤول، صنفت موارد التشريعات اليونانية المصنفة. نقوم بتجربة هذه البيان ات وتقييم بطارية الأساليب المتقدمة والصفوفات المصنفة، تتراوح من تعلم الآلات التقليدية والطرق القائمة على RNN إلى الأساليب القائمة على المحولات الحديثة. نظرا لأن الهندسة المعمارية المتكررة مع Adminings Word الخاصة بالمجال توفر الأداء العام المحسن أثناء التنافس حتى إلى النماذج القائمة على المحولات. أخيرا، نظهر أن النماذج المتطورة متعددة اللغات والأنتغات التي تعتمد على المحولات التي تعمل على أعلى تصنيف من تصنيف الصفوصين، مما يجعلنا شكا من ضرورة تدريب نماذج تعلم نقل أحادية التحويل كقاعدة عامة. على حد علمنا، هذه هي المرة الأولى التي يتم فيها النظر في مهمة تصنيف النص القانوني اليوناني في مشروع بحث مفتوح، في حين أن اليونانية هي لغة مع موارد NLP محدودة للغاية بشكل عام.
إن اكتشاف موضوع الناشئ البطيء هو مهمة بين اكتشاف الحدث، حيث نكمل السلوكيات من الكلمات المختلفة في فترة قصيرة من الزمن، وتطور اللغة، حيث نراقب تطورها الطويل الأجل.في هذا العمل، نتعامل مع مشكلة الكشف المبكر عن المواضيع الجديدة المبكرة.تحقيقا لهذه الغاي ة، نجمع أدلة على إشارات ضعيفة على مستوى الكلمة.نقترح مراقبة سلوك تمثيل الكلمات في مساحة تضمين واستخدام إحدى خصائصها الهندسية لتوصيف ظهور المواضيع.نظرا لأن التقييم يصعب عادة على هذا النوع من المهمة، فإننا نقدم إطارا للتقييم الكمي وإظهار النتائج الإيجابية التي تتفوق على الأساليب الحديثة من بين الفن.يتم تقييم طريقتنا على مجموعة بيانات عامة للصحافة والمقالات العلمية.
كما ينمو الإنترنت في الحجم، فهذا يفعل مقدار المعلومات القائمة على النص الموجود.بالنسبة للعديد من المساحات التطبيق، فإن الأمر أساسي لعزل وتحديد النصوص التي تتعلق بموضوع معين.في حين أن التصنيف من الفئة من الفئة سيكون مثاليا لهذه التحليل، فهناك نقص قريب في البحث فيما يتعلق بالنهج الفعالة مع قوة تنبؤية عالية.من خلال الإشارة إلى أن مجموعة المستندات التي يرغبنا في تحديدها كمجموعات خطية إيجابية لنموذج مساحة المتجهات التي تمثل نصنا، نقترح تصنيف مخروطي، وهو نهج يسمح لنا بتحديد ما إذا كان المستند من موضوع معين في حسابيبطريقة فعالة.نقترح أيضا استبعاد طبيعي، نسخة معدلة من الفصل العادي الذي يجعله أكثر ملاءمة في سياق التصنيف من فئتين.نظهر في تحليلنا أن نهجنا ليس لديه فقط قوة تنبؤية فقط على مجموعات البيانات الخاصة بنا، ولكنه أسرع أيضا في حسابه.
حققت نماذج الإجابة على الجدول (TableQa) ضعيفا (TableQA) أداء حديثة من خلال استخدام محول بيرت المدرب مسبقا إلى ترميز سؤال وجداول لإنتاج استعلام منظم للسؤال. ومع ذلك، في الإعدادات العملية يتم نشر أنظمة Tableqa عبر جدول كوربورا وجود توزيعات موضوعية وتوز يعات كلمة متميزة تماما من Bertraining Corpus. في هذا العمل، نحاكي سيناريو التحول العملي من خلال تصميم معايير التحدي الجديدة Wikisql-TS و WiKiTe-TS، وتتألف من تقسيم اختبار قطار Dev في خمس مجموعات موضوع مميزة، استنادا إلى مجموعات بيانات Wikisql والأسئلة الشائعة. نوضح تجريبيا أنه على الرغم من التدريب المسبق على نص واسع النطاق، يتحلل أداء النماذج بشكل كبير عندما يتم تقييمها على مواضيع غير مرئية. ردا على ذلك، نقترح T3QA (موضوع الإجابة على الجدول القابل للتحويل) إطار التكيف العملي ل TableQA يتألف من: (1) حقن المفردات المحددة للموضوع في بيرت، (2) مولد محول نص إلى نص جديد (مثل T5، GPT2) يركز خط أنابيب توليد السؤال الطبيعي المستندة إلى اللغة الطبيعية على توليد بيانات التدريب الخاصة بالموضوع، و (3) Reveer نموذج منطقي. نظهر أن T3QA يوفر خط الأساس الجيد بشكل معقول لمعايير تحول الموضوع لدينا. نعتقد أن معاييرنا المنفصلة لدينا ستؤدي إلى حلول طاولة قوية مناسبة للنشر العملي
غالبا ما تكون معالجة اللغات الطبيعية (NLP) هي العمود الفقري لأنظمة اليوم لتفاعلات المستخدم واسترجاع المعلومات وغيرها. تعتمد العديد من تطبيقات NLP هذه على تمثيلات متخصصة متخصصة (E.G. Adgeddings Word، نماذج الموضوع) التي تحسن القدرة على السبب في العلاق ات بين وثائق Corpus. يقترن التقدم بالتقدم المحرز في التمثيلات المستفادة، كما أن مقاييس التشابه المستخدمة لمقارنة تمثيل الوثائق تتطور أيضا، مع اختلاف العديد من المقترحات في وقت الحساب أو الترجمة الشفوية. في هذه الورقة نقترح امتدادا لمقياس مسافة توثيق هجينة ناشئة محددة تجمع بين نماذج الموضوع و Adgeddings Word: النقل الهرمي للموضوع (Hott). في محددة، نقوم بتوسيع Hott باستخدام تمثيلات الكلمات المحسنة للسياق. نحن نقدم التحقق من صحة نهجنا على مجموعات البيانات العامة، باستخدام برت نموذج اللغة لمهمة تصنيف المستندات. تشير النتائج إلى أداء تنافسي من متري Hott الموسعة. علاوة على ذلك، قم بتطبيق مقياس التشغيل السريع وتمديده لدعم أبحاث الوسائط التعليمية، بمهمة استرجاع للمواضيع المطابقة في المناهج الدراسية الألمانية إلى ممرات الكتب المدرسية التعليمية، إلى جانب تقديم وثيقة توضيحية مساعدة تمثل الموضوع المهيمن للوثيقة المستردة. في دراسة المستخدم، تفضل طريقة تفسيرنا على الكلمات الرئيسية الموضوعية العادية.
تم إلقاء اللوم على الاستقطاب المتزايد لوسائل الإعلام الإخبارية بسبب عدم الخلاف والجدل وحتى العنف. وبالتالي فإن التعرف المبكر للمواضيع المستقطبة هو مسألة عاجلة يمكن أن تساعد في تخفيف الصراع. ومع ذلك، لا يزال القياس الدقيق للاستقطاب الحكيم في الموضوع ت حديا للبحث المفتوح. لمعالجة هذه الفجوة، نقترح Eptisanship-Aware السياقي الموضوع (PACTE)، وهي طريقة للكشف تلقائيا عن الموضوعات المستقطبة من مصادر الأخبار الحزبية. على وجه التحديد، باستخدام نموذج لغة تم تصنيعه حول التعرف على حزب المقالات الإخبارية، نمثل أيديولوجية لجنة أخبار حول موضوع من خلال تضمين موضوع Corpus-contentralized وقياس الاستقطاب باستخدام مسافة جيبوز. نحن نطبق طريقنا إلى مجموعة بيانات من المقالات الإخبارية حول جائحة CovID-19. تظهر تجارب واسعة على مصادر وأخبار مختلفة ومواضيع فعالية طريقتنا لالتقاط الاستقطاب الموضعي، كما هو موضح بفعاليتها لاسترجاع أكثر الموضوعات المستقطبة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا