ترغب بنشر مسار تعليمي؟ اضغط هنا

Contractnli: مجموعة بيانات لاستدلال اللغة الطبيعية على مستوى المستند للعقود

ContractNLI: A Dataset for Document-level Natural Language Inference for Contracts

253   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مراجعة العقود هي إجراء يستغرق وقتا طويلا يتحمل نفقات كبيرة للشركات وعدم المساواة الاجتماعية لأولئك الذين لا يستطيعون تحمل تكاليفها. في هذا العمل، نقترح استنتاج اللغة الطبيعي على مستوى المستند (NLI) للعقود "، وهو جديد، تطبيق عالمي حقيقي من NLI يتناول مثل هذه المشاكل. في هذه المهمة، يتم إعطاء نظام مجموعة من الفرضيات (مثل بعض الالتزامات بالاتفاق قد ينجو من الإنهاء. ") وعقد، ويطلب منها تصنيف ما إذا كانت كل فرضية تنطوي عليها" "، تناقض مع" لم يذكره "(محايد) العقد وكذلك تحديد الأدلة" للقرار على أنه يمتد في العقد. شرحنا وإطلاق سراح أكبر جوربوس حتى الآن يتكون من 607 عقدا مشروحا. نوضح بعد ذلك أن النماذج الحالية تفشل بشكل سيء في مهمتنا وإدخال خط أساس قوي، والتي (أ) تحديد دليل الأدلة كتصنيف متعدد العلامات على المدافع بدلا من محاولة التنبؤ بطارية الرموز البديلة والنهاية، و (ب) توظف تجزئة السياق أكثر تطورا للتعامل مع وثائق طويلة. نوضح أيضا أن الخصائص اللغوية للعقود، مثل النفي من خلال الاستثناءات، تساهم في صعوبة هذه المهمة وأن هناك مجالا كبيرا للتحسين.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تشبه مهمة تبسيط نص الوثيقة على مستوى المستندات إلى صعوبة تقليل التعقيد الإضافي.نقدم مجموعة بيانات مجمعة حديثا من النصوص الألمانية، التي تم جمعها من مجلة Swiss News 20 Minuten (20 دقيقة) والتي تتكون من مقالات كاملة مقررة مع ملخصات مبسطة.علاوة على ذلك، نقدم تجارب على تبسيط النص التلقائي مع MBART MBART متعددة اللغات المسبدة مسبقا ونسخة معدلة منها أكثر صديقة للذاكرة، باستخدام كل من مجموعة البيانات الجديدة والتبسيط الموجودة Corpora.تتيح لنا تعديلات MBArt التدريب بتكلفة أقل في الذاكرة دون فقدان الكثير من الخسارة في الأداء، في الواقع، فإن MBART أصغر يحسن حتى النموذج القياسي في إعداد مع مستويات تبسيط متعددة.
من المعروف أن مهام توليد اللغة الطبيعية (NLG) على اللغات المؤيدة للإسقاط تعاني من مشاكل ضمير Zero (ZP)، وتظل المشكلات تحديا بسبب ندرة NLG Corpora المشروح من ZP.في هذه الحالة، نقترح نهجا للغاية على مرحلتين على مرحلتين للغاية على نمذجة السياق الزوجي مع استعادة ZP لتخفيف مشكلة ZP في مهام NLG.وخاصة، نحن نؤيد عملية الاسترداد في أزياء تحت إشراف المهمة حيث يتم تعلم إمكانية استعادة تمثيل ZP أثناء عملية تعلم المهام NLG، وبالتالي فإن طريقتنا لا تتطلب مشروحة NLG Corpora مع ZPS.بالنسبة لتعزيز النظام، نتعلم بوت عدوى لضبط مخرجاتنا النموذجية لتخفيف انتشار الخطأ الناجم عن نظام ZPS المسترد.تظهر التجارب في ثلاثة مهام NLG على مستوى الوثيقة، أي الترجمة الآلية، الإجابة على الأسئلة، والتلخيص، أن نهجنا يمكن أن يحسن الأداء إلى حد كبير، وتحسين الترجمة الضميرة مثيرة للإعجاب للغاية.
تبسيط النص هو تقنية قيمة.ومع ذلك، يقتصر البحث الحالي على تبسيط الجملة.في هذه الورقة، نحدد والتحقيق في مهمة جديدة من تبسيط نص المستندات على مستوى المستند، والتي تهدف إلى تبسيط وثيقة تتكون من جمل متعددة.بناء على مقالب ويكيبيديا، نقوم أولا ببناء مجموعة بيانات واسعة النطاق تسمى D-Wikipedia وأداء التحليل والتقييم البشري عليه لإظهار أن مجموعة البيانات موثوقة.بعد ذلك، نقترح مقياس تقييم تلقائي جديد يسمى D-SARI هو أكثر ملاءمة لمهمة تبسيط مستوى المستند.أخيرا، نقوم باختيار العديد من النماذج التمثيلية كطرازات أساسية لهذه المهمة وأداء التقييم التلقائي والتقييم البشري.نحن نحلل النتائج وأشرح أوجه القصور في النماذج الأساسية.
حقق استنتاج اللغة الطبيعي (NLI) اهتماما كبيرا في السنوات الأخيرة؛ومع ذلك، ظل وعد تطبيق اختراقات NLI لمهام NLP الأخرى المنفذة غير الموحدة.في هذا العمل، نستخدم الفهم القروض متعدد الخيارات (MCRC) وفحص صحة واقعية لمهام التلخيص النصي (CFCS) للتحقيق في الأ سباب المحتملة لهذا.تظهر النتائج الخاصة بنا أن: (1) الطول الأقصر نسبيا في مجموعات بيانات NLI التقليدية هو التحدي الرئيسي الذي يحظر الاستخدام في تطبيقات المصب (التي تفعل أفضل مع سياقات أطول)؛(2) يمكن معالجة هذا التحدي عن طريق تحويل مجموعات بيانات فهم القراءة الغنية بالموارد إلى مجموعات بيانات NLI أطول؛و (3) تتفوق النماذج المدربة على مجموعات بيانات الفرضية المحولة والأطول الفرضية تلك المدربة باستخدام مجموعات بيانات NLI التقليدية القصيرة في مهام المصب في المقام الأول بسبب الفرق في أطوال الفرضية.
تقدم هذه الورقة مجموعة بيانات جديدة للفيديو واللغة مع إجراءات بشرية للاستدلال المنطقي متعدد الوسائط، والتي تركز على التعبيرات المتعمدة وجوقية تصف الإجراءات البشرية الديناميكية.تتكون DataSet من 200 فيديو، 5554 ملصقات عمل، و 1،942 ثلاثة توائم عمل من ال نموذج (الموضوع، المسند، كائن) يمكن ترجمته بسهولة إلى تمثيلات دلالية منطقية.من المتوقع أن تكون DataSet مفيدة لتقييم أنظمة الاستدلال متعددة الوسائط بين مقاطع الفيديو والجمل المعقدة الدلوية بما في ذلك النفي والكمية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا