النمط هو جزء لا يتجزأ من اللغة الطبيعية.ومع ذلك، فإن أساليب التقييم لتدابير النمط نادرة، وغالبا ما تكون المهام الخاصة وعادة ما لا تتحكم في المحتوى.نقترح إطار تقييم النمط المعياري والحبوب المحتوى ومقره المحتوى (STEL) لاختبار أداء أي نموذج يمكن مقارنة جملتين على النمط.نحن نوضح ستيل مع أبعاد عامين من النمط (رسمي / غير رسمي وبسيط / معقد) بالإضافة إلى خصائصين محددة للأسلوب (Contrac'tion and Numb3r البديلة).نجد أن الأساليب القائمة على BERT تفوق إصدارات بسيطة من تدابير النمط الشائعة الاستخدام مثل 3 غرامات وترقيب الترقيم والنهج القائمة على LIWC.نحن ندعو إضافة مهام أخرى وثيمات مهمة إلى ستيل ونأمل في تسهيل تحسين التدابير الحساسة للنمط.
Style is an integral part of natural language. However, evaluation methods for style measures are rare, often task-specific and usually do not control for content. We propose the modular, fine-grained and content-controlled similarity-based STyle EvaLuation framework (STEL) to test the performance of any model that can compare two sentences on style. We illustrate STEL with two general dimensions of style (formal/informal and simple/complex) as well as two specific characteristics of style (contrac'tion and numb3r substitution). We find that BERT-based methods outperform simple versions of commonly used style measures like 3-grams, punctuation frequency and LIWC-based approaches. We invite the addition of further tasks and task instances to STEL and hope to facilitate the improvement of style-sensitive measures.
المراجع المستخدمة
https://aclanthology.org/
هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق
في حين أن مجال نقل النمط (ST) ينمو بسرعة، فقد أعاقه بعدم وجود ممارسات موحدة للتقييم التلقائي.في هذه الورقة، نقوم بتقييم المقاييس التلقائية الرائدة على المهمة التي تم بحثها عن نقل أسلوب الأشكال.على عكس التقييمات السابقة، التي تركز فقط على اللغة الإنجل
يعرض هذا العمل رواية خط أنابيب QA مفتوحة من أربعة مراحل R2-D2 (رتبة مرتين، اقرأ مرتين).يتكون خط الأنابيب من المسترد والمرور Reranker وقارئ استخراجي وقارئ عام وآلية تعزز التنبؤ النهائي من جميع مكونات النظام.نوضح قوتها عبر ثلاث مجموعات بيانات QA المجال
في حين أن نموذج التراجع (Coecke et al.، 2010) أثبت أداة قيمة لدراسة الجوانب التركيبية للغة على مستوى الدلالات، فإن اعتمادها القوي على قواعد النحوية التي تطرح قيودا مهمة: أولا، فإنه يمنع التجريبات الكبيرة النطاق بسببعدم وجود محلل pregroup؛وثانيا، فإنه
في السنوات الأخيرة، اكتسب الرعاية الصحية الرقمية عن بعد باستخدام الدردشات عبر الإنترنت زخما، خاصة في الجنوب العالمي. على الرغم من أن العمل السابق قد درس أنماط التفاعل في المنتديات عبر الإنترنت (الصحة)، مثل Talklife، Reddit و Facebook، كان هناك عمل مح