نقوم بتقديم Gerdalir، مجموعة بيانات ألمانية لاسترجاع المعلومات القانونية بناء على وثائق الحالة من منصة المعلومات القانونية المفتوحة المفتوحة.تتكون DataSet من استفسارات 123 ألفا، يتم تصنيف كل منها وثيقة واحدة ذات صلة على الأقل في مجموعة من وثائق الحالة 131K.نقوم بإجراء العديد من التجارب الأساسية بما في ذلك BM25 وإعادة الرحالة العصبية لحديمع DataSet لدينا، نهدف إلى توفير معيار موحد لرجال الألمانية وترويج البحث المفتوح في هذا المجال.أبعد من ذلك، تضم مجموعة بياناتنا بيانات تدريبية كافية لاستخدامها كملقمة من النماذج في اللغة الألمانية أو اللغوية متعددة اللغات.
We present GerDaLIR, a German Dataset for Legal Information Retrieval based on case documents from the open legal information platform Open Legal Data. The dataset consists of 123K queries, each labelled with at least one relevant document in a collection of 131K case documents. We conduct several baseline experiments including BM25 and a state-of-the-art neural re-ranker. With our dataset, we aim to provide a standardized benchmark for German LIR and promote open research in this area. Beyond that, our dataset comprises sufficient training data to be used as a downstream task for German or multilingual language models.
المراجع المستخدمة
https://aclanthology.org/
تشبه مهمة تبسيط نص الوثيقة على مستوى المستندات إلى صعوبة تقليل التعقيد الإضافي.نقدم مجموعة بيانات مجمعة حديثا من النصوص الألمانية، التي تم جمعها من مجلة Swiss News 20 Minuten (20 دقيقة) والتي تتكون من مقالات كاملة مقررة مع ملخصات مبسطة.علاوة على ذلك،
إحدى التحديات في استرجاع المعلومات (IR) هي مشكلة عدم تطابق المفردات، والتي تحدث عندما تكون الشروط بين الاستفسارات والمستندات مختلفة بشكل جذابي ولكنها مماثلة دلالة. في حين اقترح العمل الحديث توسيع الاستعلامات أو المستندات من خلال إثراء تمثيلاتها مع مص
مع استمرار العالم في محاربة جائحة CovID-19، فإنه يقاتل في وقت واحد من نقص الدم "- وهو طوفان من تضليل وانتشار نظريات المؤامرة المؤدية إلى تهديدات صحية وشعبة المجتمع. لمكافحة هذا المعكرية، هناك حاجة ملحة لمجموعات البيانات القياسية التي يمكن أن تساعد ال
نقدم متعدد اليوراء، مجموعة بيانات جديدة متعددة اللغات لتصنيف الموضوع للوثائق القانونية. تضم DataSet قوانين الاتحاد الأوروبي 65 ألف (EU)، والتي ترجمت رسميا في 23 لغة، مشروحا بالملصقات المتعددة من تصنيف Eurovoc. نسلط الضوء على تأثير المنفأة الزمنية الا
تحديد مصطلحات المصطلحات هي الخطوة الأولى في التواصل العلمي. يمكن تطوير نماذج توليد النص العصبي لتوليد التعريف التحايل على منحك كثافة العمل، مما يؤدي إلى مزيد من تسريع الاكتشاف العلمي. لسوء الحظ، فإن الافتقار إلى مجموعة بيانات تعريف المصطلحات واسعة ال