ترغب بنشر مسار تعليمي؟ اضغط هنا

الكشف عن الأحداث وتطورها عبر الزمن مهمة حاسمة في فهم اللغة الطبيعية. المناهج العصبية الأخيرة لحدث استخراج العلاقات الزمنية عادة الأحداث عادة إلى التشرد في مساحة Euclidean وتدريب مصنف للكشف عن العلاقات الزمنية بين أزواج الأحداث. ومع ذلك، لا يمكن للمشر وع في الفضاء الإقليدية التقاط علاقات غير متماثلة أكثر ثراء مثل العلاقات الزمنية الحدث. وبالتالي اقترحنا تضمين الأحداث في المساحات القطعي، والتي هي موجهة نحو جوهرها في نمذجة الهياكل الهرمية. نقدم نهجين لتشفير الأحداث وعلاقاتهم الزمنية في المساحات القطعية. نهج واحد يرفع إلى تضمينات الزائفة لعلاقات الحدث المستخلصة مباشرة من خلال عمليات هندسية بسيطة. في المرتبة الثانية، ابتعدنا عن وضع بنية نهاية إلى نهاية مؤلفة من الوحدات العصبية الزمنية المصممة لمهمة استخراج العلاقة الزمنية. أظهرت تقييمات تجريبية شاملة عن مجموعات البيانات المستخدمة على نطاق واسع فوائد إعادة النظر في المهام على مساحة هندسية مختلفة، مما أدى إلى أداء حديثة في العديد من المقاييس القياسية. أخيرا، أبرزت دراسة الاجتثاث والعديد من التحليلات النوعية دلالات الأحداث الغنية المشفرة ضمنيا في المساحات الزائفة.
تأثرت الكشف عن الحدث منذ فترة طويلة بسبب لعنة الزناد: التجاوز الزنجي سيضر بالقدرة على مستوى التعميم أثناء تقديره سيضر بأداء الكشف.هذه المشكلة أكثر حدة في سيناريو أقل لقطة.في هذه الورقة، نحدد وحل مشكلة لعنة المشغل في اكتشاف حدث قليل الطواف (FSED) من و جهة نظر سببية.من خلال صياغة FSED مع نموذج سببي هيكلي (SCM)، وجدنا أن الزناد هو مواجهة السياق والنتيجة، مما يجعل أساليب FSED السابقة أسهل بكثير على المشغلات المبكرة.لحل هذه المشكلة، نقترح التدخل في السياق عن طريق تعديل الخلفية أثناء التدريب.تبين التجارب أن طريقتنا تحسن بشكل كبير من FSED على كل من مجموعة بيانات ACE05 و Maven.
يعاني العمل السابق على علاقة Crosslingual واستخراج الأحداث (REE) من قضية التحيز أحادي الأحادي بسبب تدريب النماذج على بيانات اللغة المصدر فقط. تتمثل نهج التغلب على هذه المسألة في استخدام البيانات غير المستهلكة في اللغة المستهدفة لمساعدة محاذاة تمثيلات crosslingual، أي عن طريق خداع تمييز لغة. ومع ذلك، نظرا لأن هذا النهج غير بشرط على معلومات الفصل، فإن مثال لغوي مستهدف يمكن أن يتماشى بشكل غير صحيح إلى مثال لغة مصدر لفئة مختلفة. لمعالجة هذه المشكلة، نقترح طريقة محاذاة Crosslingual الجديدة التي ترفد معلومات الفئة من مهام REE لتعلم التمثيل. على وجه الخصوص، نقترح تعلم نسختين من ناقلات التمثيل لكل فصل في مهمة ري بناء على أمثلة اللغة أو الهدف المستهدف. سيتم بعد ذلك محاذاة ناقلات التمثيل للفصول المقابلة لتحقيق محاذاة علم الفئة للتمثيلات crosslingual. بالإضافة إلى ذلك، نقترح مواصلة مواءمة مقالات التمثيل لفئات الكلمات العالمية للألوج (أي أجزاء من العلاقات بين الكلام والاعتماد). على هذا النحو، يتم تقديم آلية تصفية جديدة لتسهيل تعلم تمثيلات فئة Word من تمثيلات السياق على نصوص الإدخال بناء على التعلم المشددي. نقوم بإجراء تجارب متشددة واسعة النطاق مع اللغة الإنجليزية والصينية والعربية على مهام ري. توضح النتائج فوائد الطريقة المقترحة التي تقدم بشكل كبير الأداء الحديث في هذه الإعدادات.
في حين أن طرازات اللغة المدربة مسبقا (PTLMS) حققت نجاحا ملحوظا في العديد من مهام NLP، إلا أنها ما زالوا يكافحون من أجل المهام التي تتطلب منطق الحدث الزمني، وهو أمر ضروري للتطبيقات المرن في الحدث. نقدم نهجا مستمرا مسبقا يزود PTLMS مع المعرفة المستهدفة حول العلاقات الزمنية للحدث. نقوم بتصميم أهداف التعلم ذات الإشراف الذاتي لاستعادة الحدث الملثمان والمؤشرات الزمنية وتمييز الأحكام من نظرائهم الفاسد (حيث تم استبدال الحدث أو المؤشرات الزمنية). بمزيد من التدريب مسبقا PTLM مع هذه الأهداف بشكل مشترك، نعزز انتباهها إلى الحدث والمعلومات الزمنية، مما أدى إلى تعزيز القدرة المعززة على المنطق الزمني للحدث. هذا ** e ** ffective ** con ** إطار ما قبل التدريب المعدني ** ه ** تنفيس ** T ** منطق Emporal (Econet) يحسن عروض الضبط الدقيقة PTLMS عبر خمسة استخراج العلاقات والسؤال وتحقق عروضا جديدة أو على قدم المساواة في معظم مهامنا المصب لدينا.
يهدف اكتشاف الحدث (ED) إلى تحديد مثيلات الأحداث من الأنواع المحددة في نصوص معينة، والتي تم إضفاء الطابع الرسمي على أنها مهمة تسلسل تسلسل.بقدر ما نعلم، تتخذ نماذج إد القائمة القائم على العصبي القرارات التي تعتمد تماما على الميزات الدلالية السياقية لكل كلمة في النص المدبأ، والتي نجدها من السهل أن تكون من السهل الخلط بين السياقات المتنوعة في مرحلة الاختبار.تحقيقا لهذه الغاية، وصلنا إلى فكرة إدخال مجموعة من الميزات الإحصائية من ترددات حدوث حدث Word-Event في مجموعة التدريب بأكملها للتعاون مع ميزات السياقية.على وجه التحديد، نقترح شبكة تمييزية دلالية وإحصائية مشتركة (SS-JDN) تتكون من مستخرج ميزة دلالية، واستخراج ميزة إحصائية، وتمييز حدث مشترك.في التجارب، يتجاوز SS-JDN بفعالية عشرة خطوط أساسية قوية حديثة على مجموعة بيانات ACE2005 و KBP2015.علاوة على ذلك، نحن نقوم بإجراء تجارب واسعة لتحقيق SS-JDN بشكل شامل.
تعكس العلاقات في معظم الرسوم البيانية المعارف التقليدية (KGS) فقط الاتصالات الثابتة والواقعية، ولكنها تفشل في تمثيل الأنشطة الديناميكية وتغير الدولة حول الكيانات. في هذه الورقة، نؤكد على أهمية دمج الأحداث في تعلم تمثيل KG، واقتراح نموذج Eventke Event ke Eventke المحسن للحدث. على وجه التحديد، نظرا لل KG الأصلية، فإننا ندمج أول عقود حدث من خلال بناء شبكة غير متجانسة، حيث يتم توزيع العقد الكيانية وعقد الحدث على جانبي الشبكة بين روابط الوسيطة في الحدث. ثم نستخدم علاقات كيان الكيان من الروابط الزمنية KG والأحداث الزمنية الأصلية إلى الكيان والكيان الداخلي والوقت على التوالي. نقوم بتصميم طريقة تمرير رسائل مفيدة وتستند إلى الرواية، والتي يتم إجراؤها على كيان كيان وكيان الحدث وحدث الأحداث لفيد معلومات الحدث في AGBeddings KG. تظهر النتائج التجريبية على مجموعات البيانات في العالم الحقيقي أن الأحداث يمكن أن تحسن إلى حد كبير جودة AGEDDINGS KG على مهام متعددة المصب.
هدف التنبؤ بالحقائق في الحدث (EFP) هو تحديد درجة الواقعية لذكر الحدث، مما يمثل مدى احتمال ذكر الحدث في النص.أظهرت نماذج التعلم العميق الحالية أهمية الهياكل النحوية واللاللالية للجمل لتحديد كلمات السياق الهامة ل EFP.ومع ذلك، فإن المشكلة الرئيسية في نم اذج EFP هذه هي أنها تشفص مسارات القفزة الواحدة فقط بين الكلمات (I.E.، والاتصالات المباشرة) لتشكيل هياكل الجملة.في هذا العمل، نظهر أن مسارات القفزات متعددة القفزة بين الكلمات ضرورية أيضا لحساب هياكل الجملة ل EFP.تحقيقا لهذه الغاية، نقدم نموذجا للتعليم العميق الجديد ل EFP الذي يعتبر صراحة مسارات القفزات متعددة القفزات مع كل من الحواف القائمة على بناء الجملة والدلية بين الكلمات للحصول على هياكل الجملة للتعلم في EFP.نوضح فعالية النموذج المقترح عبر التجارب الواسعة في هذا العمل.
يمكن التفكير في رواية القصص، سواء عبر الخرافات أو التقارير الإخبارية أو الأفلام الوثائقية أو المذكرات، باعتبارها اتصال بالأحداث المثيرة للاهتمام والذين يرتبطون معا عملية ملموسة. من المستحسن استخراج سلاسل الحدث التي تمثل هذه العمليات. ومع ذلك، لا تزال هذه الاستخراج مشكلة صعبة. نؤخر أن هذا يرجع إلى طبيعة النصوص التي يتم اكتشاف السلاسل منها. ينبط نص اللغة الطبيعية على سرد من الأحداث الخرسانية والبرية مع معلومات أساسية، والسياق، والرأي، والعناصر الأخرى التي تعتبر مهمة لمجموعة متنوعة من الخطاب الضروري وأعمال البراغماتية ولكنها ليست جزءا من سلسلة الأحداث الرئيسية التي يتم إبلاغها. نقدم طرق لاستخراج هذه السلسلة الرئيسية من نص اللغة الطبيعية، عن طريق تصفية الأحداث غير البارزة والجمل الداعمة. نوضح فعالية أساليبنا بمعزل سلاسل الأحداث الهامة من خلال مقارنة تأثيرها على مهام المصب. نظرا لأنه من خلال نماذج لغة كبيرة مسبقا على سلاسلنا المستخرجة لدينا، نحصل على تحسينات في مهمتين تستفيد من فهم واضح لسلاسل الأحداث: التنبؤ السردي والمسألة الزمنية القائمة على الأحداث الرد. تؤكد التحسينات الواجب والدراسات الودي أن طريقة استخراجنا تعزز سلاسل الأحداث الهامة.
إن استخراج وسيطة الحدث الضمني (EAE) هي مهمة حاسمة لاستخراج المعلومات على مستوى المستندات تهدف إلى تحديد حجج الحدث بما يتجاوز مستوى الجملة.على الرغم من الجهود العديدة لهذه المهمة، فإن عدم وجود بيانات تدريبية كافية قد أعاقت الدراسة.في هذه الورقة، نأخذ منظورا جديدا لمعالجة قضية Sparsity الخاصة بالبيانات التي تواجهها EAE الضمنية، من خلال سد المهمة مع فهم القراءة بالآلة (MRC).على وجه الخصوص، نحن ابتكرت نظاميين تكبير البيانات عبر MRC، بما في ذلك: 1) يتيح نقل المعرفة الضمني، مما يتيح نقل المعرفة من المهام الأخرى، من خلال بناء إطار تدريب موحد في صياغة MRC، و 2) تكبير بيانات صريح، والتي يمكن أن تولد جديدا جديداأمثلة تدريبية، عن طريق علاج نماذج MRC كهندان.لقد بررت التجارب الواسعة فعالية نهجنا - - لا يحصل فقط على أداء حديثة على معيارين، ولكن أيضا يوضح نتائج متفوقة في سيناريو منخفضة البيانات.
تحليل Coreference Event Dockence (CDCR) هي مهمة تحديد الأحداث التي تشير إلى نفس الأحداث طوال مجموعة من المستندات. تعد شرح بيانات CDCR عملية شاقة ومكلفة، موضحا سبب وجود كورسا الموجودة صغيرة وتفتقر إلى تغطية المجال. للتغلب على هذه الاختناق، نستخلك تلقا ئيا بيانات Coreference من الارتباطات التشعبية في الأخبار عبر الإنترنت: عند الإشارة إلى حدث كبير في العالم الحقيقي، غالبا ما يقوم الكتاب في كثير من الأحيان بإضافة ارتباط تشعبي إلى مقالة أخرى تغطي هذا الحدث. نوضح أن جمع الارتباطات التشعبية التي تشير إلى نفس المقالة (الأقوالية) تنتج بيانات CDCR واسعة عالية الجودة وإنشاء كائن من وثائق 2M وذكر الحدث الفضي القياسي 2.7M يسمى HyperCoref. نقيم نظام أحدث على ثلاثة CDCR Corpora ويجد أن النماذج المدربة على مجموعات فرعية صغيرة من Hypercoref تنافسية للغاية، مع أداء مشابه للنماذج المدربة على البيانات الذهبية القياسية. مع عملنا، نقوم بحرية بحث CDCR من اعتمادا على بيانات التدريب المكلفة المشروح البشرية وتفتتح إمكانيات للبحث عن البحوث بعد أن يتم تكييف نهج استخراج البيانات لدينا بسهولة مع لغات أخرى.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا