ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم التخصيب التصنيفي في إصدارات WordNet DIACHRONIC

Evaluation of Taxonomy Enrichment on Diachronic WordNet Versions

309   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تطبق الغالبية العظمى من الأساليب الحالية لتخصيص التصنيفات في تطبق Adgeddings Word لأنها أثبتت تجميع السياقات (بمعنى واسع) المستخرجة من النصوص التي تكفي إرفاق الكلمات الأيتام بالتصنيف.من ناحية أخرى، وبصرف النظر عن كونها الموارد الكبيرة المعجمية واللاللالية، فإن التصنيفات هي هياكل رسم بيانية.يمكن أن يكون الجمع بين تدمير Word مع هيكل الرسم البياني للتصنيف موضع التنبؤ بالتنبؤ بالعلاقات التصنيفية.في هذه الورقة، نقارن العديد من النهج لإرفاق كلمات جديدة بالتصنيف الموجود القائمة على تمثيلات الرسم البياني مع تلك التي تعتمد على ASTTEXT AGEDDINGS.نختبر جميع الأساليب على مجموعات البيانات الروسية والإنجليزية، ولكن يمكن تطبيقها أيضا على الكلمات واللغات الأخرى.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

استخدام الوعود هو سائق معروف لتغيير اللغة. وقد اقترح أن تستخدم النساء النساء أكثر من الرجال. على الرغم من وجود العديد من الدراسات التي تحقق في الاختلافات بين الجنسين في اللغة، إلا أن المطالبة المتعلقة باستخدام الاستحمام لم يتم اختبارها بشكل شامل عبر الزمن. إذا كانت النساء يستخدمن اللفائف أكثر، فقد يعني ذلك أن النساء يقودن أيضا تكوين عمليات إفراطية جديدة وتغيير اللغة مع مرور الوقت. باستخدام أربعة نص شهير كوربورا كبيرة من اللغة الإنجليزية، نقيم الادعاء بأن النساء يستخدمن الزيادات أكثر من الرجال من خلال تحليل كمي. كنا قمنا بتجميع قائمة ب 106 أزواج من الطبع - المحرمات لتحليل استخدامها النسبي عبر الزمن من قبل كل جنس في Corga. على عكس الاعتقاد الحالي، تظهر نتائجنا أن النساء لا يستخدمن اللفائف ذات نسبة أعلى من الرجال. كررنا التحليل باستخدام قائمة فرعية مختلفة من قائمة الأزواج من الادعاء-المحرمات ووجدت أن النتيجة كانت قوية. تشير دراستنا إلى أنه في مجموعة واسعة من الإعدادات التي تنطوي على كل من الخطاب والكتابة، ومع درجات متفاوتة من الأشكال، لا تستخدم النساء أو تشكيل الزيادات أكثر من الرجال.
تصف هذه الورقة تطوير مورد معجمي عبر الإنترنت للمساعدة في تنظيم أنظمة الكشف وكبح استخدام الكلمات الهجومية عبر الإنترنت.مع انتشار نمو منصات وسائل التواصل الاجتماعي، يتم الآن إجراء العديد من المحادثات عند الخط.أدت زيادة المحادثات عبر الإنترنت للترفيه وا لعمل والتواصل الاجتماعي إلى زيادة المضايقة.على وجه الخصوص، نقوم بإنشاء مفردات متخصصة في الإحساس بالكلمات الهجومية اليابانية للكلمات المفتوحة متعددة اللغات.يتوسع هذا المفردات على قائمة موجودة من الكلمات اليابانية الناتجة وتوفر التصنيف والربط السليم بالاتصالات داخل Wordnet متعددة اللغات.ثم تناقش هذه الورقة تقييم المفردات كمورد لتمثيل التصنيف والكلمات الهجومية وكخلاصا محتملا لاستخدام الكلمة الهجومية في وسائل التواصل الاجتماعي.
أخبار وهمية تسبب أضرارا كبيرة في المجتمع.للتعامل مع هذه الأخبار المزيفة، تم إجراء العديد من الدراسات حول نماذج كشف البناء وترتيب مجموعات البيانات.معظم مجموعات بيانات الأخبار المزيفة تعتمد على فترة زمنية محددة.وبالتالي، فإن نماذج الكشف المدربة على مثل هذه البيانات لديها صعوبة في اكتشاف الأخبار الرواية المزيفة الناتجة عن التغييرات السياسية والتغيرات الاجتماعية؛قد ينتج عنهم إخراج متحيز من المدخلات، بما في ذلك أسماء شخص معين وأسماء تنظيمية.نشير إلى هذه المشكلة كتحيز DIACHRONIC لأنه سبب تاريخ إنشاء الأخبار في كل مجموعة بيانات.في هذه الدراسة، نؤكد التحيز، وخاصة الأسماء المناسبة بما في ذلك أسماء الشخص، من انحراف مظاهر العبارة في كل مجموعة بيانات.بناء على هذه النتائج، نقترح طرق الاخفاء باستخدام Wikidata للتخفيف من تأثير أسماء الشخص والتحقق من صحة ما إذا كانوا يقومون بإجراء نماذج الكشف عن الأخبار وهمية قوية من خلال التجارب مع بيانات داخل المجال والخروج.
حاليا، هناك نوعان من الوصمات المتاحة للتركية: TR-Wordnet of Balkanet و Kenet.كما يتضمن Wordnet الأكثر شمولية للتركية، تشمل Kenet 76،757 عملية عملية.لدى Kenet العلاقات الدلالية المعدلة وترتبط ب Pwn من خلال العلاقات المتداخلة.في هذه الورقة، نقدم الإجرا ء الذي اعتمده في إنشاء Kenet، وإعطاء تفاصيل حول نهجنا في التعليق العلاقات الدلالية مثل ارتفاع ضغط الدم ويناقش المشكلات الخاصة باللغة التي تواجهها في هذه العمليات.
في هذه الورقة، نقدم تحديثا كبيرا إلى أول بيانات كيكة مجرية مسماة، The Szeged Ner Corpus.استخدمنا النقل الصفر - النار عبر اللغات لتهيئة تخصيب أنواع الكيان المشروح في الجسر باستخدام ثلاث نماذج NER العصبية: اثنان منها بناء على Corpus English Ontonotes و One استنادا إلى Czech Cority Corpus Corpus Finetuned من نماذج اللغة العصبية متعددة اللغاتوبعدتم دمج إخراج النماذج تلقائيا مع التوضيحية الأصلية NER، وتصحيحها تلقائيا وتوجه المزيد من التوضيح الإضافي، مثل التصفيات اللازمة لأنواع الكيانات المختلفة.نقدم تقييم الأداء الصفر بالرصاص للنماذج التي تستند إلى OnTonotes ونموذج NEM جديد يستند إلى المحولات التي تم تدريبها على الجزء التدريبي من The Final Corpus.نحن نفرج عن كوربوس والنموذج المدربين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا