البحث عن وثائق قانونية هي مهمة متخصصة لاسترجاع المعلومات ذات الصلة لمستخدمي الخبراء (المحامين ومساعدتهم) وللمستخدمين غير الخبراء. من خلال البحث في قرارات المحكمة السابقة (الحالات)، يمكن للمستخدم إعداد التفكير القانوني بشكل أفضل من حالة جديدة. القدرة على البحث باستخدام تقطيع نص لغة طبيعية بدلا من استعلام مزيد من الاستعلام الاصطناعي قد يساعد في منع مشكلات صياغة الاستعلام. أيضا، إذا كان التشابه الدلالي قد يكون على غرار المطابقات المعجمية الدقيقة، فيمكن العثور على نتائج أكثر صلة حتى لو كانت شروط الاستعلام لا تتطابق تماما. بالنسبة لهذا المجال، صاغنا مهمة لمقارنة الطرق المختلفة لنمذجة التشابه الدلالي على مستوى الفقرة، باستخدام النظم العصبية وغير العصبية. قارنا أنظمة تشفير الاستعلام وفقرات مجموعة البحث كمنتجات، مما يتيح استخدام تشابه التجميل لتحقيق تصنيف النتائج. بعد بناء مجموعة بيانات ألمانية للحالات والنظام الأساسي من سويسرا، واستخراج الاستشهادات من الحالات إلى النظام الأساسي، قمنا بتطوير خوارزمية لتقدير التشابه الدلالي على مستوى الفقرة، باستخدام طريقة التشابه القائمة على الرابط. عند تقييم الأنظمة المختلفة بهذه الطريقة، نجد أن النمذجة الدلالية التشابه بواسطة النظم العصبية يمكن أن يتم تعزيز قناع اهتمام ممتد يروي الضوضاء في المدخلات.
Searching for legal documents is a specialized Information Retrieval task that is relevant for expert users (lawyers and their assistants) and for non-expert users. By searching previous court decisions (cases), a user can better prepare the legal reasoning of a new case. Being able to search using a natural language text snippet instead of a more artificial query could help to prevent query formulation issues. Also, if semantic similarity could be modeled beyond exact lexical matches, more relevant results can be found even if the query terms don't match exactly. For this domain, we formulated a task to compare different ways of modeling semantic similarity at paragraph level, using neural and non-neural systems. We compared systems that encode the query and the search collection paragraphs as vectors, enabling the use of cosine similarity for results ranking. After building a German dataset for cases and statutes from Switzerland, and extracting citations from cases to statutes, we developed an algorithm for estimating semantic similarity at paragraph level, using a link-based similarity method. When evaluating different systems in this way, we find that semantic similarity modeling by neural systems can be boosted with an extended attention mask that quenches noise in the inputs.
المراجع المستخدمة
https://aclanthology.org/