ترغب بنشر مسار تعليمي؟ اضغط هنا

تصنيف الموضوع القانوني متعدد الحبيبية للتشريع اليوناني

Multi-granular Legal Topic Classification on Greek Legislation

237   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذا العمل، ندرس مهمة تصنيف النصوص القانونية المكتوبة باللغة اليونانية. نقدم واجعلنا متاحا علنا ​​مجموعة بيانات جديدة تستند إلى التشريعات اليونانية، والتي تتكون من أكثر من 47 ألف مسؤول، صنفت موارد التشريعات اليونانية المصنفة. نقوم بتجربة هذه البيانات وتقييم بطارية الأساليب المتقدمة والصفوفات المصنفة، تتراوح من تعلم الآلات التقليدية والطرق القائمة على RNN إلى الأساليب القائمة على المحولات الحديثة. نظرا لأن الهندسة المعمارية المتكررة مع Adminings Word الخاصة بالمجال توفر الأداء العام المحسن أثناء التنافس حتى إلى النماذج القائمة على المحولات. أخيرا، نظهر أن النماذج المتطورة متعددة اللغات والأنتغات التي تعتمد على المحولات التي تعمل على أعلى تصنيف من تصنيف الصفوصين، مما يجعلنا شكا من ضرورة تدريب نماذج تعلم نقل أحادية التحويل كقاعدة عامة. على حد علمنا، هذه هي المرة الأولى التي يتم فيها النظر في مهمة تصنيف النص القانوني اليوناني في مشروع بحث مفتوح، في حين أن اليونانية هي لغة مع موارد NLP محدودة للغاية بشكل عام.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقدم الإصدار اليوناني من خاطئ أداة التوضيح التلقائية (براينت وآخرون، 2017)، والتي أطلقنا عليها اسم Elerrant.وظائف خاطئة كتصنيف نوع من نوع الخطأ القاعدة واستخدامه كأداة التقييم الرئيسية للأنظمة المشاركة في BEA-2019 (براينت وآخرون، 2019) مهمة مشتركة.هنا، نناقش الاختلافات النحوية والمورفولوجية بين الإنجليزية واليونانية وكيف أثرت هذه الاختلافات على تطوير السائل.نحن نقدم أيضا أول كوربوس اليونانية الأصلية (GNC) و Wikiedits Corpus اليونانية (GWE)، ومجموعات بيانات تقييم جديدة مع أخطاء من المتعلمين اليونانيين الأصليين وتحرير صفحات الحديث في ويكيبيديا على التوالي.تستخدم هذان البيانات اثنين لتقييم السائل.هذه الورقة هي جزء وحيد من صورة أكبر توضح محاولة حل مشكلة لغات الموارد المنخفضة في NLP، في حالتنا اليونانية.
في الآونة الأخيرة، تصبح نماذج الهجوم المصنوع النصي شعبية بشكل متزايد بسبب نجاحها في تقدير نماذج NLP. ومع ذلك، فإن المصنفات الموجودة لها أوجه قصور واضحة. (1) عادة ما يفكرون فقط بتعبئة واحدة من استراتيجيات التعديل (على سبيل المثال Word-level-level-leve l)، وهو غير كاف لاستكشاف الفضاء النصي الشامل للجيل؛ (2) يحتاجون إلى الاستعلام عن نماذج الضحية مئات المرات لإجراء هجوم ناجح، وهو غير فعال للغاية في الممارسة العملية. لمعالجة هذه المشكلات، في هذه الورقة نقترح Maya، نموذج هجوم متعدد الحبيبات لتوليد عينات خصومة عالية الجودة عالية الجودة مع استعلامات أقل من نماذج الضحايا. علاوة على ذلك، نقترح طريقة تعتمد على التعزيز لتدريب وكيل هجوم متعدد التحبيب من خلال استنساخ السلوك مع معرفة الخبراء من خوارزمية مايا لدينا لتقليل أوقات الاستعلام. بالإضافة إلى ذلك، نقوم أيضا بتكييف الوكيل لمهاجمة نماذج الصندوق الأسود التي تستلزمات الإخراج فقط دون درجات الثقة. نحن نقوم بإجراء تجارب شاملة لتقييم نماذج الهجوم لدينا عن طريق مهاجمة Bilstm و Bert and Roberta في إعدادات هجوم سوداء مختلفة وثلاثة مجموعات بيانات معيار. تظهر النتائج التجريبية أن نماذجنا تحقق أداء مهاجم بشكل عام وتنتج عينات خصومة أكثر بطلاقة وحلال قوسنة مقارنة بالنماذج الأساسية. علاوة على ذلك، يقلل وكيل الهجوم الخاص بنا بشكل كبير من أوقات الاستعلام في كلا من إعدادات الهجوم. يتم إصدار رموزنا في https://github.com/yangyi-chen/maya.
يتعامل تصنيف النص المتعدد التسميات الهرمية (HMTC) مع المهمة الصعبة التي يمكن فيها تعيين مثيل للفئات المهيكية المتعددة في نفس الوقت. غالبية الدراسات السابقة إما أن تركز على تقليل مهمة HMTC إلى مشكلة مسطحة متعددة العلامات تتجاهل علاقات الفئات الرأسية أ و استغلال التبعيات عبر مستويات هرمية مختلفة دون النظر في الارتباط الأفقي بين الفئات في نفس المستوى، والتي تؤدي حتما إلى المعلومات الأساسية خسارة. في هذه الورقة، نقترح إطار رواية HMTC يرى الارتباطات الفئة الرأسية والأفقية. على وجه التحديد، نقوم أولا بتصميم شبكة عصبية متقطعة متوترة فضفاضة كمستغل في التمثيل للحصول على تمثيلات للكلمات والوثائق، والأهم من ذلك، والأهم من ذلك، والتعويضات الحكيمة للمستوى بالنسبة للفئات، والتي لا تعتبر في الأعمال السابقة. بعد ذلك، يتم اعتماد تمثيلات الفئة المستفادة لالتقاط التبعيات الرأسي بين مستويات التسلسل الهرمي للفئة ونموذج الارتباط الأفقي. أخيرا، استنادا إلى Admeddings و Emgeddings، نقوم بتصميم خوارزمية هجينة للتنبؤ بفئات الهيكل الهرمي بأكمله. تجارب واسعة أجريت على مجموعات بيانات HMTC العالمية الحقيقية صحة فعالية الإطار المقترح بدعوات كبيرة على خط الأساس.
نقدم متعدد اليوراء، مجموعة بيانات جديدة متعددة اللغات لتصنيف الموضوع للوثائق القانونية. تضم DataSet قوانين الاتحاد الأوروبي 65 ألف (EU)، والتي ترجمت رسميا في 23 لغة، مشروحا بالملصقات المتعددة من تصنيف Eurovoc. نسلط الضوء على تأثير المنفأة الزمنية الا نجراف وأهمية التسلسل الزمني، بدلا من الانقسامات العشوائية. نستخدم DataSet كاختبار لنقل صفرية عبر اللغات، حيث استغلنا المستندات التدريبية المشروح بلغة واحدة (مصدر) لتصنيف المستندات بلغة أخرى (الهدف). نجد أن ضبط النموذج المحدد المتعدد اللغتين (XLM-Roberta، MT5) في لغة مصدر واحدة يؤدي إلى نسيان كارثي من المعرفة متعددة اللغات، وبالتالي، فإن تحويل صفر ضعيف إلى لغات أخرى. استراتيجيات التكيف، وهي استراتيجيات دقيقة، محولات، معترفيت، LNFIT، اقترحت في الأصل تسريع الضبط الجميل للمهام النهائية الجديدة، والمساعدة في الاحتفاظ بالمعرفة متعددة اللغات من الاحتجاج، وتحسين نقل اللغات الصفر قليلا، ولكن تأثيرها يعتمد أيضا على ذلك على النموذج المحدد مسبقا يستخدم وحجم مجموعة التسمية.
حقق تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت) عروضا حديثة على العديد من مهام تصنيف النص، مثل تحليل الغراء والمعنويات. بدأ العمل الأخير في المجال القانوني في استخدام بيرت في المهام، مثل التنبؤ بالحكم القانوني والتنبؤ بالانتهاك. تتمثل الممارسات ا لشائعة في استخدام Bert في ضبط نموذج مدرب مسبقا على مهمة مستهدفة واقتطع نصات الإدخال بحجم إدخال BERT (E.G. في معظم الرموز 512). ومع ذلك، نظرا للخصائص الفريدة للمستندات القانونية، فليس من الواضح كيفية التكيف بفعالية بيرت في المجال القانوني. في هذا العمل، نحقق في كيفية التعامل مع المستندات الطويلة، وكيفية أهمية التدريب المسبق على المستندات من نفس المجال باعتباره المهمة المستهدفة. نحن نقوم بإجراء تجارب على مجموعات البيانات الأخيرة: DataSet DataSet ECHR ومجموعة بيانات المهام الناجحة، وهي مهام التصنيف متعددة الملصقات والتصنيف الثنائي، على التوالي. الأهم من ذلك، في المتوسط ​​عدد الرموز في وثيقة من مجموعة بيانات انتهاك EURR أكثر من 1600. في حين أن المستندات الموجودة في مجموعة بيانات المهام الأساسية أقصر (الحد الأقصى لعدد الرموز 204). قارننا بدقة العديد من التقنيات لتكييف بيرت على وثائق طويلة ومقارنة النماذج المختلفة المدربة مسبقا على المجالات القانونية وغيرها. تظهر نتائجنا التجريبية أننا نحتاج إلى التكيف بشكل صريح بتكييف بيرت للتعامل مع المستندات الطويلة، حيث يؤدي اقتطاع إلى أداء أقل فعالية. وجدنا أيضا أن التدريب المسبق على المستندات التي تشبه المهمة المستهدفة ستؤدي إلى أداء أكثر فعالية في العديد من السيناريو.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا