ترغب بنشر مسار تعليمي؟ اضغط هنا

يهدف استخراج العاطفة (ECE) إلى استخراج الأسباب وراء المشاعر المعينة في النص. تم نشر بعض الأعمال المتعلقة بمهمة اللجنة الاقتصادية لأوروبا وجذب الكثير من الاهتمام في السنوات الأخيرة. ومع ذلك، فإن هذه الطرق تهمل قضايا رئيسيتين: 1) دفع عدد قليل من الانتب اه لتأثير معلومات السياق على مستوى المستند على اللجنة الاقتصادية لأوروبا، و 2) عدم وجود استكشاف كاف لكيفية استخدام بند العاطفة المشروح بفعالية. بالنسبة للقضية الأولى، نقترح شبكة انتباه هرمية ثنائية الاتجاه (BHA) المقابلة للمرشح المحدد يسبب البحث عن سياق مستوى المستند في المستند بطريقة منظمة وديناميكية. بالنسبة للقضية الثانية، نقوم بتصميم وحدة تصفية عاطفية (EF) لكل طبقة من شبكة انتباه الرسوم البيانية، والتي تحسب درجة البوابة بناء على جملة العاطفة لتصفية المعلومات غير ذات الصلة. الجمع بين BHA و EF، يمكن ل EF-BHA أن يكتسب ديناميكيا المعلومات السياقية من اتجاهين وفلاتر المعلومات غير ذات صلة. توضح النتائج التجريبية أن EF-BHA يحقق العروض التنافسية على مجموعة بيانات عامة بلغات مختلفة (الصينية والإنجليزية). علاوة على ذلك، نحدد تأثير السياق على استخراج السبب العاطفي وتوفير تصور التفاعلات بين المرشح يسبب البنود والسياقات.
غالبا ما تكون معالجة اللغات الطبيعية (NLP) هي العمود الفقري لأنظمة اليوم لتفاعلات المستخدم واسترجاع المعلومات وغيرها. تعتمد العديد من تطبيقات NLP هذه على تمثيلات متخصصة متخصصة (E.G. Adgeddings Word، نماذج الموضوع) التي تحسن القدرة على السبب في العلاق ات بين وثائق Corpus. يقترن التقدم بالتقدم المحرز في التمثيلات المستفادة، كما أن مقاييس التشابه المستخدمة لمقارنة تمثيل الوثائق تتطور أيضا، مع اختلاف العديد من المقترحات في وقت الحساب أو الترجمة الشفوية. في هذه الورقة نقترح امتدادا لمقياس مسافة توثيق هجينة ناشئة محددة تجمع بين نماذج الموضوع و Adgeddings Word: النقل الهرمي للموضوع (Hott). في محددة، نقوم بتوسيع Hott باستخدام تمثيلات الكلمات المحسنة للسياق. نحن نقدم التحقق من صحة نهجنا على مجموعات البيانات العامة، باستخدام برت نموذج اللغة لمهمة تصنيف المستندات. تشير النتائج إلى أداء تنافسي من متري Hott الموسعة. علاوة على ذلك، قم بتطبيق مقياس التشغيل السريع وتمديده لدعم أبحاث الوسائط التعليمية، بمهمة استرجاع للمواضيع المطابقة في المناهج الدراسية الألمانية إلى ممرات الكتب المدرسية التعليمية، إلى جانب تقديم وثيقة توضيحية مساعدة تمثل الموضوع المهيمن للوثيقة المستردة. في دراسة المستخدم، تفضل طريقة تفسيرنا على الكلمات الرئيسية الموضوعية العادية.
يهدف كتابة كيان الرسم البياني للمعرفة إلى أن ينتج أنواع الكيانات المفقودة في الرسوم البيانية المعرفة التي تعد قضية مهمة ولكنها غير مستحقة.تقترح هذه الورقة طريقة رواية لهذه المهمة من خلال الاستفادة من المعلومات السياقية للكيانات.على وجه التحديد، نقوم بتصميم آليات الاستدلال: I) N2T: استخدام كل جار كل جار بشكل مستقل لاستنتاج نوعه؛2) AGG2T: إجمالي جيران كيان لاستنتاج نوعها.ستنتج هذه الآليات نتائج الاستدلال المتعددة، وتستخدم طريقة تجميع مضاعفة بشكل كبير لتوليد نتيجة الاستدلال النهائي.علاوة على ذلك، نقترح وظيفة خسارة جديدة لتخفيف المشكلة السلبية الخاطئة أثناء التدريب.تجارب على اثنين من كلغ العالم الحقيقي توضح فعالية طريقتنا.يمكن الحصول على شفرة المصدر وبيانات هذه الورقة من https://github.com/cciiplab/cet.
تم عرض الجمع بين نموذج لغة مسبق (PLM) مع أنماط نصية للمساعدة في كل من إعدادات الطلقة الصفرية وعدد. بالنسبة للأداء الصفر بالرصاص، فمن المنطقي تصميم أنماط تشبه النص الذي ينظر إليه عن كثب أثناء الاحتجاج بالإشراف على الذات لأن النموذج لم ير أي شيء آخر. ا لتدريب الخاضع للإشراف يسمح بمزيد من المرونة. إذا سمحنا بالرمز الرموز خارج المفردات PLM، فيمكن تكييف الأنماط بشكل أكثر مرونة لمصمم الخصوصيات PLM. الأنماط المتناقضة حيث يمكن أن يكون الرمز المميز أي ناقل مستمر من تلك التي يجب أن يتم فيها اختيار منفصل بين عناصر المفردات، ونحن نسمي أنماط طريقنا المستمرة (كونان). نقوم بتقييم كونان على معايير مدرجة للاستدلال المعجمي في السياق (LIIC) A.K.a. المستقلة المستقلة، وهي مهمة تفاهم لغة طبيعية صعبة مع بيانات تدريب صغيرة نسبيا. في مقارنة مباشرة مع الأنماط المنفصلة، ​​يؤدي كونان باستمرار إلى تحسين الأداء، وضع حالة من الفن الجديد. تجربتنا تعطي رؤى قيمة على نوع النمط الذي يعزز أداء PLM على LIC ورفع أسئلة مهمة فيما يتعلق بفهم PLMS باستخدام أنماط النص.
تكمن الشبكة العصبية الباهظة الثمنية والذاكرة الكثيفة وراء النجاح الأخير لتعلم تمثيل اللغة. نقل المعرفة، وهي تقنية رئيسية لنشر مثل هذا النموذج اللغوي الواسع في البيئات النادرة من الموارد، ينقل المعرفة المتعلقة بتمثيلات الكلمات الفردية المستفادة دون قي ود. في هذه الورقة، مستوحاة من الملاحظات الأخيرة أن تمثيلات اللغة في وضع معرفة نسبيا ولديها معرفة أكثر دلالة ككل، نقدم هدف تقطير معارف جديد لتعلم تمثيل اللغة الذي ينقل المعرفة السياقية عبر نوعين من العلاقات عبر الإنترنت: علاقة كلمة وطبقة تحول العلاقة. على عكس تقنيات التقطير الأخيرة الأخرى لنماذج اللغة، فإن تقطيرنا السياقي ليس لديه أي قيود على التغييرات المعمارية بين المعلم والطالب. نحن نقوم بالتحقق من فعالية طريقتنا حول المعايير الصعبة لمهام فهم اللغة، ليس فقط في بنية الأحجام المختلفة ولكن أيضا بالاشتراك مع Dynabert، طريقة تشذيب الحجم التكيفي المقترح مؤخرا.
تم إظهار نماذج الإجابة على الأسئلة (QA) للحصول على فهم القراءة لاستغلال تحيزات محددات غير مقصودة مثل السؤال - التداخل المعجمي السياق. هذا يعيق نماذج ضمان الجودة من المعمم إلى العينات الممثلة تمثيلا مثل الأسئلة ذات التداخل المعجمي المنخفض. يمكن أن يكو ن جيل السؤال (QG)، وهي طريقة لتعزيز مجموعات بيانات QA، حل تدهور الأداء إذا كان QG يمكن أن Debias QA بشكل صحيح. ومع ذلك، نكتشف أن نماذج QG العصبية الأخيرة متحيزة نحو توليد الأسئلة ذات التداخل المعجمي العالي، والتي يمكن أن تضخيم تحيز DataSet. علاوة على ذلك، يكشف تحليلنا أن تكبير البيانات مع نماذج QG هذه تضعف بشكل متكرر الأداء على الأسئلة مع التداخل المعجمي المنخفض، مع تحسين ذلك على الأسئلة ذات التداخل المعجمي العالي. لمعالجة هذه المشكلة، نستخدم نهج مرادف يستند إلى استبدال أسئلة زيادة التداخل المعجمي المنخفض. نوضح أن نهج تكبير البيانات المقترح بسيط ولكنه فعال في التخفيف من مشكلة التدهور مع الأمثلة الاصطناعية 70K فقط.
من المعروف أن مهام توليد اللغة الطبيعية (NLG) على اللغات المؤيدة للإسقاط تعاني من مشاكل ضمير Zero (ZP)، وتظل المشكلات تحديا بسبب ندرة NLG Corpora المشروح من ZP.في هذه الحالة، نقترح نهجا للغاية على مرحلتين على مرحلتين للغاية على نمذجة السياق الزوجي مع استعادة ZP لتخفيف مشكلة ZP في مهام NLG.وخاصة، نحن نؤيد عملية الاسترداد في أزياء تحت إشراف المهمة حيث يتم تعلم إمكانية استعادة تمثيل ZP أثناء عملية تعلم المهام NLG، وبالتالي فإن طريقتنا لا تتطلب مشروحة NLG Corpora مع ZPS.بالنسبة لتعزيز النظام، نتعلم بوت عدوى لضبط مخرجاتنا النموذجية لتخفيف انتشار الخطأ الناجم عن نظام ZPS المسترد.تظهر التجارب في ثلاثة مهام NLG على مستوى الوثيقة، أي الترجمة الآلية، الإجابة على الأسئلة، والتلخيص، أن نهجنا يمكن أن يحسن الأداء إلى حد كبير، وتحسين الترجمة الضميرة مثيرة للإعجاب للغاية.
تهدف مهمة اكتشاف الحدث (ED) في استخراج المعلومات إلى الاعتراف وتصنيف كلمات الأحداث في النص. تميز التقدم الأخير نماذج لغوية متقدمة للمحولات المتقدمة (على سبيل المثال، بيرت) كعنصر حاسم في النماذج الحديثة للإد. ومع ذلك، فإن الحد الطول لنصوص الإدخال هو ح اجز لمثل هذه النماذج المحددة لأنها لا تستطيع تشفير سياق مستوي المستند طويل المدى الذي ثبت أنه مفيد لإد إد. لمعالجة هذه المشكلة، نقترح طريقة رواية لنموذج سياق مستوى المستندات لتحديد الجمل ذات الصلة بشكل حيوي في وثيقة التنبؤ بالحدث بالسجن الهدف. سيتم بعد ذلك زيادة الجملة المستهدفة بالجمل المختارة وتستهلكها النماذج اللغوية القائمة على المحولات لتعلم التمثيل المحسن. تحقيقا لهذه الغاية، يتم استخدام خوارزمية التعزيز لتدريب اختيار الجملة ذات الصلة من أجل إد. يتم بعد ذلك تقديم العديد من أنواع المعلومات لتشكيل وظيفة المكافآت لعملية التدريب، بما في ذلك أداء إد، وإشراك الجملة، وعلاقات الخطاب. تجاه تجاربنا الواسعة على مجموعات البيانات القياسية المتعددة تكشف عن فعالية النموذج المقترح، مما يؤدي إلى أداء جديد من الفنادق الجديدة.
يتطلب توليد النصوص في الأوراق العلمية لا يتطلب فقط التقاط المحتوى الوارد في الإدخال المحدد ولكن في كثير من الأحيان اكتسب المعلومات الخارجية المسماة السياق.نحن ندفع توليد النص العلمي من خلال اقتراح مهمة جديدة، وهي جيل نصي على دايين السياق في المجال ال علمي، بهدف استغلال مساهمات السياق في النصوص المتولدة.تحقيقا لهذه الغاية، نقدم رواية تحديا على مجموعة بيانات علمية واسعة النطاق للجمول النصي على علم السياق (Scixgen)، والتي تتكون من ورقات 205،304 المشروح جيدا مع مراجع كاملة للأشياء المستخدمة على نطاق واسع (مثل الجداول والأرقام والجوارخ)ورقة.نحن معيارين شمولين، باستخدام أحدث الفنون، فعالية مجموعة بيانات Scixgen التي تم إنشاؤها حديثا في توليد الوصف والفقرة.سيتم توفير مجموعة البيانات والمعايير الخاصة بنا متاحة للجمهور لتسهيل أبحاث جيل النص العلمي.
تتضمن ترجمة الآلات العصبية السياق (NMT) معلومات سياقية من النصوص المحيطة بها، والتي يمكن أن تحسن جودة الترجمة من الترجمة الآلية على مستوى المستند. ركز العديد من الأعمال الموجودة على NMT على دراية السياق على تطوير هياكل نموذجية جديدة لإدماج سياقات إضا فية وأظهرت بعض النتائج الواعدة. ومع ذلك، فإن معظم الأعمال الموجودة تعتمد على فقدان الانتروبيا، مما يؤدي إلى استخدام محدود من المعلومات السياقية. في هذه الورقة، نقترح CoreFCL، وتعزيز البيانات الجديدة ومخطط التعلم المتعاقلي على أساس COMERALE بين المصدر والجمل السياقية. من خلال التفسير الذي تم اكتشافه تلقائيا يذكر السلامة في الجملة السياقية، يمكن corefcl تدريب النموذج على أن تكون حساسة لتناقض الأساسية. جربنا من طريقنا على نماذج NMT Common Commany-Aware NMT ومهام ترجمة على مستوى المستند. في التجارب، تحسنت طريقتنا باستمرار بلو من النماذج المقارنة على المهام الإنجليزية والألمانية والكورية. نظهر أيضا أن طريقتنا تعمل بشكل كبير على تحسين دقة Aquerence في جناح الاختبار الإنجليزي والألماني.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا