ترغب بنشر مسار تعليمي؟ اضغط هنا

حققت نماذج الإجابة على الجدول (TableQa) ضعيفا (TableQA) أداء حديثة من خلال استخدام محول بيرت المدرب مسبقا إلى ترميز سؤال وجداول لإنتاج استعلام منظم للسؤال. ومع ذلك، في الإعدادات العملية يتم نشر أنظمة Tableqa عبر جدول كوربورا وجود توزيعات موضوعية وتوز يعات كلمة متميزة تماما من Bertraining Corpus. في هذا العمل، نحاكي سيناريو التحول العملي من خلال تصميم معايير التحدي الجديدة Wikisql-TS و WiKiTe-TS، وتتألف من تقسيم اختبار قطار Dev في خمس مجموعات موضوع مميزة، استنادا إلى مجموعات بيانات Wikisql والأسئلة الشائعة. نوضح تجريبيا أنه على الرغم من التدريب المسبق على نص واسع النطاق، يتحلل أداء النماذج بشكل كبير عندما يتم تقييمها على مواضيع غير مرئية. ردا على ذلك، نقترح T3QA (موضوع الإجابة على الجدول القابل للتحويل) إطار التكيف العملي ل TableQA يتألف من: (1) حقن المفردات المحددة للموضوع في بيرت، (2) مولد محول نص إلى نص جديد (مثل T5، GPT2) يركز خط أنابيب توليد السؤال الطبيعي المستندة إلى اللغة الطبيعية على توليد بيانات التدريب الخاصة بالموضوع، و (3) Reveer نموذج منطقي. نظهر أن T3QA يوفر خط الأساس الجيد بشكل معقول لمعايير تحول الموضوع لدينا. نعتقد أن معاييرنا المنفصلة لدينا ستؤدي إلى حلول طاولة قوية مناسبة للنشر العملي
كما ينمو الإنترنت في الحجم، فهذا يفعل مقدار المعلومات القائمة على النص الموجود.بالنسبة للعديد من المساحات التطبيق، فإن الأمر أساسي لعزل وتحديد النصوص التي تتعلق بموضوع معين.في حين أن التصنيف من الفئة من الفئة سيكون مثاليا لهذه التحليل، فهناك نقص قريب في البحث فيما يتعلق بالنهج الفعالة مع قوة تنبؤية عالية.من خلال الإشارة إلى أن مجموعة المستندات التي يرغبنا في تحديدها كمجموعات خطية إيجابية لنموذج مساحة المتجهات التي تمثل نصنا، نقترح تصنيف مخروطي، وهو نهج يسمح لنا بتحديد ما إذا كان المستند من موضوع معين في حسابيبطريقة فعالة.نقترح أيضا استبعاد طبيعي، نسخة معدلة من الفصل العادي الذي يجعله أكثر ملاءمة في سياق التصنيف من فئتين.نظهر في تحليلنا أن نهجنا ليس لديه فقط قوة تنبؤية فقط على مجموعات البيانات الخاصة بنا، ولكنه أسرع أيضا في حسابه.
نقطة حرجة في تلخيص المستندات المتعددة (MDS) هي معرفة العلاقات بين مختلف الوثائق. في هذه الورقة، نقترح نموذجا جديدا للمغادرات الرواية، حيث نمثل مستندات متعددة كشركة بيانية غير متجانسة، حيث أخذت العقد الدلالية من التحبيبات المختلفة في الاعتبار، ثم قم ب تطبيق إطار رسم بياني للتسلسل لتوليد ملخصات. علاوة على ذلك، فإننا نوظف نموذج موضوع عصبي لاستكشاف المواضيع الكامنة المشتركة التي يمكن أن تكون بمثابة وحدات دلالية عبر الوثيقة لتسجيل مستندات مختلفة وتوفير معلومات عالمية لتوجيه الجيل الموجز. نظرا لأن استخراج الموضوع يمكن أن ينظر إليه كنوع خاص من التلخيص الذي يلخص النصوص "نصوص" في شكل مجردة أكثر، أي توزيع موضوعي، نعتمد استراتيجية تعليمية متعددة المهام لتدريب المظهر والتلخيص المشترك، مما يسمح للترقية بعضهم البعض. توضح النتائج التجريبية على مجموعة بيانات الأخبار المتعددة أن نموذجنا يتفوق على نماذج MDS السابقة في كل من درجات Rouge والتقييم البشري، وفي الوقت نفسه يتعلم موضوعات عالية الجودة.
على عكس النص المنظم جيدا، مثل التقارير الإخبارية ومقالات الموسوعة، غالبا ما يأتي محتوى الحوار من محاورين أو أكثر، وتبادل المعلومات مع بعضها البعض. في مثل هذا السيناريو، يمكن أن يختلف موضوع المحادثة عند التقدم والمعلومات الأساسية لموضوع معين في كثير م ن الأحيان متناثرة عبر مختلف الكلام من المتكلمين المختلفة، مما يطرح التحديات التي تلخص التخلص من الحوارات بشكل مجردة. لالتقاط معلومات الموضوع المختلفة للمحادثة والحقائق البارزة على الموضوعات التي تم الاستيلاء عليها، يقترح هذا العمل أهدافا للتعلم المتعاواة على علم الموضوع، وهي اكتشاف الاتساق وأهداف الجيل الموجزة الفرعية، والتي من المتوقع أن تقوم بها ضمنيا في تغيير موضوع وتغيير الموضوع تحديات تثير المعلومات لمهمة تلخيص الحوار. يتم تأطير الأهداف المقنعة المقترحة بمثابة مهام مساعدة لمهمة تلخيص الحوار الأساسي، المتحدة عبر استراتيجية تحديث معلمة بديلة. توضح تجارب واسعة النطاق على مجموعات البيانات القياسية أن الطريقة البسيطة المقترحة تتفوق بشكل كبير على خطوط الأساس القوية وتحقق أداء جديد من بين الفني. الرمز والنماذج المدربة متاحة للجمهور عبر.
غالبا ما تكون معالجة اللغات الطبيعية (NLP) هي العمود الفقري لأنظمة اليوم لتفاعلات المستخدم واسترجاع المعلومات وغيرها. تعتمد العديد من تطبيقات NLP هذه على تمثيلات متخصصة متخصصة (E.G. Adgeddings Word، نماذج الموضوع) التي تحسن القدرة على السبب في العلاق ات بين وثائق Corpus. يقترن التقدم بالتقدم المحرز في التمثيلات المستفادة، كما أن مقاييس التشابه المستخدمة لمقارنة تمثيل الوثائق تتطور أيضا، مع اختلاف العديد من المقترحات في وقت الحساب أو الترجمة الشفوية. في هذه الورقة نقترح امتدادا لمقياس مسافة توثيق هجينة ناشئة محددة تجمع بين نماذج الموضوع و Adgeddings Word: النقل الهرمي للموضوع (Hott). في محددة، نقوم بتوسيع Hott باستخدام تمثيلات الكلمات المحسنة للسياق. نحن نقدم التحقق من صحة نهجنا على مجموعات البيانات العامة، باستخدام برت نموذج اللغة لمهمة تصنيف المستندات. تشير النتائج إلى أداء تنافسي من متري Hott الموسعة. علاوة على ذلك، قم بتطبيق مقياس التشغيل السريع وتمديده لدعم أبحاث الوسائط التعليمية، بمهمة استرجاع للمواضيع المطابقة في المناهج الدراسية الألمانية إلى ممرات الكتب المدرسية التعليمية، إلى جانب تقديم وثيقة توضيحية مساعدة تمثل الموضوع المهيمن للوثيقة المستردة. في دراسة المستخدم، تفضل طريقة تفسيرنا على الكلمات الرئيسية الموضوعية العادية.
إن اكتشاف موضوع الناشئ البطيء هو مهمة بين اكتشاف الحدث، حيث نكمل السلوكيات من الكلمات المختلفة في فترة قصيرة من الزمن، وتطور اللغة، حيث نراقب تطورها الطويل الأجل.في هذا العمل، نتعامل مع مشكلة الكشف المبكر عن المواضيع الجديدة المبكرة.تحقيقا لهذه الغاي ة، نجمع أدلة على إشارات ضعيفة على مستوى الكلمة.نقترح مراقبة سلوك تمثيل الكلمات في مساحة تضمين واستخدام إحدى خصائصها الهندسية لتوصيف ظهور المواضيع.نظرا لأن التقييم يصعب عادة على هذا النوع من المهمة، فإننا نقدم إطارا للتقييم الكمي وإظهار النتائج الإيجابية التي تتفوق على الأساليب الحديثة من بين الفن.يتم تقييم طريقتنا على مجموعة بيانات عامة للصحافة والمقالات العلمية.
من المعروف أن تحليل الخطاب أمرا أساسيا في معالجة اللغة الطبيعية.في هذا البحث، نقدم نظرة ثاقبة حول تحليل سلسلة موضوعات مستوى الخطاب (DTC) التي تهدف إلى اكتشاف مواضيع جديدة والتحقيق في كيفية تطور هذه الموضوعات بمرور الوقت داخل مقال.لمعالجة عدم وجود بيا نات، نساهم في كوربس خطاب جديد مع الرسوم البيانية التبعية على غرار DTC المشروح عند المقالات الإخبارية.على وجه الخصوص، نضمن الموثوقية العالية للدور من خلال الاستفادة من استراتيجية توضيحية من خطوتين لبناء البيانات وتصفية التعليقات التوضيحية بدرجات ثقة منخفضة.بناء على Corpus المشروح، نقدم نظاما بسيطا ولكنك قوي لتخليص سلسلة موضوع الخطاب التلقائي.
نماذج الموضوعات العصبية (NTMS) تطبيق الشبكات العصبية العميقة إلى نمذجة الموضوعات. على الرغم من نجاحها، تجاهل NTMS عموما جائبا مهمين: (1) فقط يتم استخدام معلومات عدد الكلمات على مستوى المستند للتدريب، في حين يتم تجاهل المزيد من المعلومات ذات المستوى ا لجميل على مستوى الجملة، و (2) المعرفة الدلالية الخارجية فيما يتعلق بالوثائق، الجمل والكلمات لم يتم استغلالها للتدريب. لمعالجة هذه المشكلات، نقترح نموذج NTM (VAE) AutoNCoder (VAE) بشكل مشترك إعادة بناء الجملة وكلمة الوثيقة التي تهمها مجموعات من المبيعات الموضعية في كيس الكلمات (القوس) و EMBEDDINGS الدلالي المدرب مسبقا. يتم تحويل المدينات المدربة مسبقا لأول مرة إلى مساحة موضة كامنة مشتركة لمواءمة دلالاتها مع تضمين القوس. يتميز نموذجنا أيضا باختلاف KL هرمي للاستفادة من تضمينات كل وثيقة لتوسيع نطاق جملهم، مما يدفع المزيد من الاهتمام للجمل ذات الصلة الدولى. أظهرت كل من التجارب الكمية والنوعية فعالية نموذجنا في 1) خفض أخطاء إعادة الإعمار على كل من المستويات الجملة والوثائق، و 2) اكتشاف موضوعات أكثر تماسكا من مجموعات بيانات العالم الحقيقي.
نماذج الموضوعات هي أدوات مفيدة لتحليل وتفسير المواضيع الأساسية الرئيسية للنص الكبير.تعتمد معظم نماذج الموضوعات على حدوث كلمة Word لحساب موضوع، أي مجموعة مرجحة من الكلمات التي تمثل معا مفهوم دلالي رفيع المستوى.في هذه الورقة، نقترح نموذجا جديدا جديدا م ختلفا عن الخفيفة الوزن في الوزن (SNTM) يتعلم سياق غني من خلال تعلم تمثيل موضوعي بالاشتراك من ثلاثة كلمات مشتركة وثيقة تنشأ ثلاثية.تشير نتائجنا التجريبية إلى أن نموذج الموضوع العصبي المقترح لدينا، SNTM، يتفوق على نماذج الموضوعات الموجودة سابقا في مقاييس الاتساق بالإضافة إلى دقة تجميع المستندات.علاوة على ذلك، بصرف النظر عن تماسك الموضوع وأداء التجميع، فإن طراز الموضوع العصبي المقترح لديه عدد من المزايا، وهي، كونها فعالة بشكل حسابي وسهل التدريب.
في هذا العمل، ندرس مهمة تصنيف النصوص القانونية المكتوبة باللغة اليونانية. نقدم واجعلنا متاحا علنا ​​مجموعة بيانات جديدة تستند إلى التشريعات اليونانية، والتي تتكون من أكثر من 47 ألف مسؤول، صنفت موارد التشريعات اليونانية المصنفة. نقوم بتجربة هذه البيان ات وتقييم بطارية الأساليب المتقدمة والصفوفات المصنفة، تتراوح من تعلم الآلات التقليدية والطرق القائمة على RNN إلى الأساليب القائمة على المحولات الحديثة. نظرا لأن الهندسة المعمارية المتكررة مع Adminings Word الخاصة بالمجال توفر الأداء العام المحسن أثناء التنافس حتى إلى النماذج القائمة على المحولات. أخيرا، نظهر أن النماذج المتطورة متعددة اللغات والأنتغات التي تعتمد على المحولات التي تعمل على أعلى تصنيف من تصنيف الصفوصين، مما يجعلنا شكا من ضرورة تدريب نماذج تعلم نقل أحادية التحويل كقاعدة عامة. على حد علمنا، هذه هي المرة الأولى التي يتم فيها النظر في مهمة تصنيف النص القانوني اليوناني في مشروع بحث مفتوح، في حين أن اليونانية هي لغة مع موارد NLP محدودة للغاية بشكل عام.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا