يشكل التعرف التلقائي للأصويات مشكلة صعبة لتطبيقات NLP. في حين أن المتحدثين الأصليين يمكنهم التعامل بشكل حدسي مع تعبيرات متعددة الكلمات التي من الصعب تتبع معاني الكلمات التي تعود معانيها التركيبية إلى دلالات الكلمة الفردية، لا يزال هناك نطاق واسع لتحسين الأساليب الحسابية. نحن نفترض أن الإنشاءات الاصطلاحية يمكن أن تتم بها شدة تدريجية من عدم التركيز الدلالي، والتحددات الرسمية، وسياق استخدام غير عادي، وإدخال عدد من التدابير اللازمة لهذه الخصائص، وتتألف تدابير تجميع قائمة على العد والتنبؤية مع تدابير السياق (الأمم المتحدة )تشابه. نحن نقيم نهجنا على معيار الذهب المسمى يدويا، مشتقة من كائن من كلمات البوب الألمانية. تحقيقا لهذه الغاية، نطبق مصنف غابات عشوائي لتحليل المساهمة الفردية للميزات للكشف عن التعابير تلقائيا، ودراسة المفاضلة بين الاستدعاء والدقة. أخيرا، نقوم بتقييم المصنف في مجموعة بيانات مستقلة من التعابير المستخرجة من قائمة التعابير في ويكيبيديا، وتحقيق الدقة الحديثة.
The automatic recognition of idioms poses a challenging problem for NLP applications. Whereas native speakers can intuitively handle multiword expressions whose compositional meanings are hard to trace back to individual word semantics, there is still ample scope for improvement regarding computational approaches. We assume that idiomatic constructions can be characterized by gradual intensities of semantic non-compositionality, formal fixedness, and unusual usage context, and introduce a number of measures for these characteristics, comprising count-based and predictive collocation measures together with measures of context (un)similarity. We evaluate our approach on a manually labelled gold standard, derived from a corpus of German pop lyrics. To this end, we apply a Random Forest classifier to analyze the individual contribution of features for automatically detecting idioms, and study the trade-off between recall and precision. Finally, we evaluate the classifier on an independent dataset of idioms extracted from a list of Wikipedia idioms, achieving state-of-the art accuracy.
المراجع المستخدمة
https://aclanthology.org/
كلمات الأغاني تنقل العديد من المشاعر إلى المستمع وصور بقوة الحالة العاطفية للكاتب أو المغني.يفحص هذه الورقة مجموعة متنوعة من نهج النمذجة لمشكلة تصنيف متعددة العاطفة للأغاني.نقدم DataSet DataSet Edmonds DataSet، وهي كلمات بيانات كلمات مشفخة عن العاطفة
نحن نتطلع إلى مشكلة تخصيص نموذج اللغة في التطبيقات التي يحتاجها مكون ASR إلى إدارة المصطلحات الخاصة بالمجال؛ على الرغم من أن تقنية التعرف على الكلام الحالية من أحدث توفر نتائج ممتازة للمجالات العامة، فإن التكيف مع القواميس أو المعانلات المتخصصة لا تز
البيانات بشكل عام ترميز التحيزات البشرية بشكل افتراضي؛ إن إدراك هذه بداية جيدة، والبحث حول كيفية التعامل معها مستمر. يتم استخدام مصطلح التحيز على نطاق واسع في سياقات مختلفة في أنظمة NLP. في بحثنا، يكون التركيز محددا للتحيزات مثل النوع الاجتماعي والعن
تقدم هذه الورقة تقنية لتحديد فتحات المشارك في عقود اللغة الإنجليزية.من خلال الإلهام من تقنيات استخراج فتحة غير مدفوعة غير المنشورة، يستخدم النظام المعروض هنا نهجا مختلفا لتحديد المصطلحات المستخدمة للإشارة إلى فتحة خاصة بالهيئة في العقود الجديدة.نقوم
إلغاء تحديد الهوية هي مهمة اكتشاف الكيانات المتعلقة بالخصوصية في النص، مثل أسماء الشخص ورسائل البريد الإلكتروني ومعلومات الاتصال.لقد درست جيدا داخل المجال الطبي.تتزايد الحاجة إلى تكنولوجيا تحديد الهوية، حيث أن التعامل مع البيانات المحفوظة للخصوصية في