ترغب بنشر مسار تعليمي؟ اضغط هنا

تحديد البيانات التعبيرية في كلمات الأغاني

Data-driven Identification of Idioms in Song Lyrics

287   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يشكل التعرف التلقائي للأصويات مشكلة صعبة لتطبيقات NLP. في حين أن المتحدثين الأصليين يمكنهم التعامل بشكل حدسي مع تعبيرات متعددة الكلمات التي من الصعب تتبع معاني الكلمات التي تعود معانيها التركيبية إلى دلالات الكلمة الفردية، لا يزال هناك نطاق واسع لتحسين الأساليب الحسابية. نحن نفترض أن الإنشاءات الاصطلاحية يمكن أن تتم بها شدة تدريجية من عدم التركيز الدلالي، والتحددات الرسمية، وسياق استخدام غير عادي، وإدخال عدد من التدابير اللازمة لهذه الخصائص، وتتألف تدابير تجميع قائمة على العد والتنبؤية مع تدابير السياق (الأمم المتحدة )تشابه. نحن نقيم نهجنا على معيار الذهب المسمى يدويا، مشتقة من كائن من كلمات البوب ​​الألمانية. تحقيقا لهذه الغاية، نطبق مصنف غابات عشوائي لتحليل المساهمة الفردية للميزات للكشف عن التعابير تلقائيا، ودراسة المفاضلة بين الاستدعاء والدقة. أخيرا، نقوم بتقييم المصنف في مجموعة بيانات مستقلة من التعابير المستخرجة من قائمة التعابير في ويكيبيديا، وتحقيق الدقة الحديثة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

كلمات الأغاني تنقل العديد من المشاعر إلى المستمع وصور بقوة الحالة العاطفية للكاتب أو المغني.يفحص هذه الورقة مجموعة متنوعة من نهج النمذجة لمشكلة تصنيف متعددة العاطفة للأغاني.نقدم DataSet DataSet Edmonds DataSet، وهي كلمات بيانات كلمات مشفخة عن العاطفة من منظور القارئ، وتعليق DataSet of Mihalcea و Stripparava (2012) على مستوى الأغنية.نجد أن النماذج المدربة على مجموعات بيانات الأغنية الصغيرة نسبيا تحقق أداء أفضل بشكل هامشي من بيرت (ديفلين وآخرون)
نحن نتطلع إلى مشكلة تخصيص نموذج اللغة في التطبيقات التي يحتاجها مكون ASR إلى إدارة المصطلحات الخاصة بالمجال؛ على الرغم من أن تقنية التعرف على الكلام الحالية من أحدث توفر نتائج ممتازة للمجالات العامة، فإن التكيف مع القواميس أو المعانلات المتخصصة لا تز ال مسألة مفتوحة. في هذا العمل، نقدم نهجا لتحسين الجمل تلقائيا، من كوربوس النص، والتي تطابق، كلاهما دلالة ومورفولوجية، مسرد المصطلحات (الكلمات أو الكلمات المركبة) المقدمة من قبل المستخدم. الهدف النهائي هو التكيف بسرعة نموذج اللغة لنظام ASR الهجين مع كمية محدودة من البيانات النصية داخل المجال من أجل التعامل بنجاح مع المجال اللغوي في متناول اليد؛ يتم توسيع مفردات النموذج الأساسي ومصممة خصيصا، مما يقلل من معدل OOV الناتج. يتم تقديم استراتيجيات اختيار البيانات القائمة على البذور المورفولوجية الضحلة والتوجيه الدلالي عبر Word2VEC ومناقشتها؛ يتكون الإعداد التجريبي في سيناريو تفسير في وقت واحد، حيث تم تصميم ASRS في ثلاث لغات للتعرف على شروط DomainSpecific (I.E. DENTITY). تظهر النتائج باستخدام مقاييس مختلفة (معدل OOV، WER، الدقة والتذكر) فعالية التقنيات المقترحة.
البيانات بشكل عام ترميز التحيزات البشرية بشكل افتراضي؛ إن إدراك هذه بداية جيدة، والبحث حول كيفية التعامل معها مستمر. يتم استخدام مصطلح التحيز على نطاق واسع في سياقات مختلفة في أنظمة NLP. في بحثنا، يكون التركيز محددا للتحيزات مثل النوع الاجتماعي والعن صرية والدين والوجهات الديمغرافية وغيرها من الآراء عند التحيزات التي تسود في أنظمة معالجة النصوص مسؤولة عن تمييز السكان المحددين بشكل منهجي، وهي ليست أخلاقية في NLP. تؤدي هذه التحيزات إلى تفاقم عدم المساواة والتنوع وإدراج السكان المحددين أثناء الاستفادة من تطبيقات NLP. تستخدم الأدوات والتكنولوجيا على المستوى المتوسط ​​بيانات متحيزة، ونقل أو تضخيم هذا التحيز إلى تطبيقات المصب. ومع ذلك، لا يكفي أن تكون كافية، محايدة بين الجنسين وحدها عند تصميم تكنولوجيا غير متحيزة - بدلا من ذلك، يجب أن نأخذ جهدا واعيا من خلال تصميم إطار موحد لقياس وتحيز التحيز. في هذه الورقة، نوصي بستة تدابير وقياس زيادة واحدة بناء على ملاحظات التحيز في البيانات والشروح والتمثيلات النصية وتقنيات الدخل.
تقدم هذه الورقة تقنية لتحديد فتحات المشارك في عقود اللغة الإنجليزية.من خلال الإلهام من تقنيات استخراج فتحة غير مدفوعة غير المنشورة، يستخدم النظام المعروض هنا نهجا مختلفا لتحديد المصطلحات المستخدمة للإشارة إلى فتحة خاصة بالهيئة في العقود الجديدة.نقوم بتقييم النظام في تكوينات ميزة متعددة لإظهار أن أفضل نظام أداء في كلا النوعين من العقود يحملون الإشارة الدقيقة للنظر فيها - على الرغم من أن النماذج المذكورة غالبا ما تكون اسم الفتحة قيد النظر - - وهي بدلا من ذلكبناء فقط على تسمية التبعية والوالد؛بمعنى آخر، يتم العثور على كمية أكثر موثوقية لدور الحزب في عقد في ما يفعلونه بدلا من ما يتم تسميته.
إلغاء تحديد الهوية هي مهمة اكتشاف الكيانات المتعلقة بالخصوصية في النص، مثل أسماء الشخص ورسائل البريد الإلكتروني ومعلومات الاتصال.لقد درست جيدا داخل المجال الطبي.تتزايد الحاجة إلى تكنولوجيا تحديد الهوية، حيث أن التعامل مع البيانات المحفوظة للخصوصية في ارتفاع الطلب في العديد من المجالات.في هذه الورقة، نركز على منشورات الوظيفة.نقدم JobStack، وهي تجسد جديدة لإلغاء تحديد البيانات الشخصية في الوظائف الشاغرة على Stackoverflow.نقدم خطوط أساس، ومقارنة الذاكرة الطويلة الأجل (LSTM) ونماذج المحولات.لتحسين هذه الأساس، نقوم بتجربة تمثيلات Bert، والبيانات المساعدة ذات الصلة بصراحة عبر التعلم متعدد المهام.تظهر نتائجنا أن البيانات الإضافية تساعد في تحسين أداء تحديد الهوية.أثناء تحسين تمثيلات BERT تحسين الأداء، تحولت بيرت فانيليا بشكل مدهش إلى أن تكون أكثر فعالية من بيرت المدربين على البيانات المتعلقة ب Stackoverflow.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا