ينقل الناس نيتهم وموقفهم من خلال الأساليب اللغوية للنص الذي يكتبونه. في هذه الدراسة، نقوم بتحقيق كملات المعجم في المعجم عبر الأساليب طوال العدسين: الإدراك البشري وأهمية كلمة الجهاز، لأن الكلمات تختلف في قوة الإشارات الأسلوبية التي تقدمها. لجمع ملصقات التصور البشري، فإننا نرفع مجموعة بيانات جديدة وطنانيرد، على رأس مجموعات بيانات النمط القياسي. لدينا عمال الحشد يسلط الضوء على الكلمات التمثيلية في النص الذي يجعلهم يعتقدون أن النص لديه الأنماط التالية: المداراة والشعور والتهدفة وخمس أنواع العاطفة. بعد ذلك بمقارنة هذه الملصقات البشرية هذه ذات أهمية نصية مشتقة من مصنف ذو طراز ذو ضبط صقل شهير مثل بيرت. تظهر نتائجنا أن بيرتف غالبا ما يجد كلمات المحتوى غير ذات صلة بالأناقة المستهدفة ككلمات مهمة تستخدم في التنبؤ بالأناقة، لكن البشر لا ينظرون بنفس الطريقة على الرغم من أن بعض الأساليب (مثل الشعور والإيجابي والفرح) الإنسان والجهاز الكلمات المحددة تشترك في تداخل كبير لبعض الأساليب.
People convey their intention and attitude through linguistic styles of the text that they write. In this study, we investigate lexicon usages across styles throughout two lenses: human perception and machine word importance, since words differ in the strength of the stylistic cues that they provide. To collect labels of human perception, we curate a new dataset, Hummingbird, on top of benchmarking style datasets. We have crowd workers highlight the representative words in the text that makes them think the text has the following styles: politeness, sentiment, offensiveness, and five emotion types. We then compare these human word labels with word importance derived from a popular fine-tuned style classifier like BERT. Our results show that the BERT often finds content words not relevant to the target style as important words used in style prediction, but humans do not perceive the same way even though for some styles (e.g., positive sentiment and joy) human- and machine-identified words share significant overlap for some styles.
المراجع المستخدمة
https://aclanthology.org/
فهم التعابير مهم في NLP.في هذه الورقة، ندرس إلى أي مدى يمكن لطراز بيرت المدرب مسبقا أن يرمز معنى التعبير العناقوي المحتمل (فطيرة) في سياق معين.نحن نستفيد من بعض البيانات الموجودة وأداء مهام التحقيق: تصنيف استخدام فطيرة وتحديد صياغة الصيغة.تشير نتائج
في مهام التحقق من القراءة في الجهاز، يجب على النموذج استخراج إجابة من السياق المتاح بالنظر إلى سؤال ومقطع.في الآونة الأخيرة، حققت نماذج اللغة المدربة مسبقا للمحولات أداء حديثة في العديد من مهام معالجة اللغة الطبيعية.ومع ذلك، فمن غير الواضح ما إذا كان
تصف الورقة تقديم فريق Milanlp (جامعة Bocconi، ميلان) في مهمة Wassa 2021 المشتركة بشأن الكشف عن التعاطف والتصنيف العاطفي.نحن نركز على المسار 2 - تصنيف العاطفة - التي تتكون من التنبؤ بمشاعر ردود الفعل على القصص الإخبارية الإنجليزية على مستوى المقال.نخت
كانت النماذج اللغوية الكبيرة المدربة مسبقا مثل بيرت القوة الدافعة وراء التحسينات الأخيرة في العديد من مهام NLP.ومع ذلك، يتم تدريب بيرت فقط على التنبؤ بالكلمات المفقودة - إما من خلال اخفاء أو تنبؤ الجملة التالي - وليس لديه معرفة بالمعلومات المعجمية أو
أدت الحاجة إلى نشر النماذج المدربة مسبقا على نطاق واسع على أجهزة الحافة بموجب موارد حسابية محدودة إلى بحث كبير لضغط هذه النماذج الكبيرة. ومع ذلك، تم إيلاء اهتمام أقل لضغط النماذج الخاصة المهام. في هذا العمل، نحقق في أساليب مختلفة من التقليم غير منظم