مراجعة العقود هي إجراء يستغرق وقتا طويلا يتحمل نفقات كبيرة للشركات وعدم المساواة الاجتماعية لأولئك الذين لا يستطيعون تحمل تكاليفها. في هذا العمل، نقترح استنتاج اللغة الطبيعي على مستوى المستند (NLI) للعقود "، وهو جديد، تطبيق عالمي حقيقي من NLI يتناول مثل هذه المشاكل. في هذه المهمة، يتم إعطاء نظام مجموعة من الفرضيات (مثل بعض الالتزامات بالاتفاق قد ينجو من الإنهاء. ") وعقد، ويطلب منها تصنيف ما إذا كانت كل فرضية تنطوي عليها" "، تناقض مع" لم يذكره "(محايد) العقد وكذلك تحديد الأدلة" للقرار على أنه يمتد في العقد. شرحنا وإطلاق سراح أكبر جوربوس حتى الآن يتكون من 607 عقدا مشروحا. نوضح بعد ذلك أن النماذج الحالية تفشل بشكل سيء في مهمتنا وإدخال خط أساس قوي، والتي (أ) تحديد دليل الأدلة كتصنيف متعدد العلامات على المدافع بدلا من محاولة التنبؤ بطارية الرموز البديلة والنهاية، و (ب) توظف تجزئة السياق أكثر تطورا للتعامل مع وثائق طويلة. نوضح أيضا أن الخصائص اللغوية للعقود، مثل النفي من خلال الاستثناءات، تساهم في صعوبة هذه المهمة وأن هناك مجالا كبيرا للتحسين.
Reviewing contracts is a time-consuming procedure that incurs large expenses to companies and social inequality to those who cannot afford it. In this work, we propose document-level natural language inference (NLI) for contracts'', a novel, real-world application of NLI that addresses such problems. In this task, a system is given a set of hypotheses (such as Some obligations of Agreement may survive termination.'') and a contract, and it is asked to classify whether each hypothesis is entailed by'', contradicting to'' or not mentioned by'' (neutral to) the contract as well as identifying evidence'' for the decision as spans in the contract. We annotated and release the largest corpus to date consisting of 607 annotated contracts. We then show that existing models fail badly on our task and introduce a strong baseline, which (a) models evidence identification as multi-label classification over spans instead of trying to predict start and end tokens, and (b) employs more sophisticated context segmentation for dealing with long documents. We also show that linguistic characteristics of contracts, such as negations by exceptions, are contributing to the difficulty of this task and that there is much room for improvement.
المراجع المستخدمة
https://aclanthology.org/
تشبه مهمة تبسيط نص الوثيقة على مستوى المستندات إلى صعوبة تقليل التعقيد الإضافي.نقدم مجموعة بيانات مجمعة حديثا من النصوص الألمانية، التي تم جمعها من مجلة Swiss News 20 Minuten (20 دقيقة) والتي تتكون من مقالات كاملة مقررة مع ملخصات مبسطة.علاوة على ذلك،
من المعروف أن مهام توليد اللغة الطبيعية (NLG) على اللغات المؤيدة للإسقاط تعاني من مشاكل ضمير Zero (ZP)، وتظل المشكلات تحديا بسبب ندرة NLG Corpora المشروح من ZP.في هذه الحالة، نقترح نهجا للغاية على مرحلتين على مرحلتين للغاية على نمذجة السياق الزوجي مع
تبسيط النص هو تقنية قيمة.ومع ذلك، يقتصر البحث الحالي على تبسيط الجملة.في هذه الورقة، نحدد والتحقيق في مهمة جديدة من تبسيط نص المستندات على مستوى المستند، والتي تهدف إلى تبسيط وثيقة تتكون من جمل متعددة.بناء على مقالب ويكيبيديا، نقوم أولا ببناء مجموعة
حقق استنتاج اللغة الطبيعي (NLI) اهتماما كبيرا في السنوات الأخيرة؛ومع ذلك، ظل وعد تطبيق اختراقات NLI لمهام NLP الأخرى المنفذة غير الموحدة.في هذا العمل، نستخدم الفهم القروض متعدد الخيارات (MCRC) وفحص صحة واقعية لمهام التلخيص النصي (CFCS) للتحقيق في الأ
تقدم هذه الورقة مجموعة بيانات جديدة للفيديو واللغة مع إجراءات بشرية للاستدلال المنطقي متعدد الوسائط، والتي تركز على التعبيرات المتعمدة وجوقية تصف الإجراءات البشرية الديناميكية.تتكون DataSet من 200 فيديو، 5554 ملصقات عمل، و 1،942 ثلاثة توائم عمل من ال