تشمل النصوص التي تم إنشاؤها من قبل المستخدم أنواعا مختلفة من الخصائص الأسلوبية، أو الضوضاء.لا تتم معالجة مثل هذه النصوص بشكل صحيح من خلال محلل مورفيم الحاليين أو نماذج اللغة القائمة على النصوص الرسمية مثل الموسوعات أو المقالات الإخبارية.في هذه الورقة، نقترح أذكيلة بسيطة مناسبة مورفولوجية (K-MT) التي يمكن أن تعالج بشكل أفضل الأسماء المعدنية والتعاوض واللغة العامية الإنترنت من بين أنواع أخرى من الضوضاء في النصوص التي تم إنشاؤها من قبل المستخدمين الكورية.لقد اختبرنا خصومنا من خلال إجراء مهام التصنيف في مراجعات الأفلام الكورية التي أنشأها المستخدم ومجموعات بيانات الكلام الكراهية، ومجموعات بيانات التعرف على الكيان الكورية.من خلال اختباراتنا، وجدنا أن K-MT مناسبا بشكل أفضل لمعالجة علاوات الإنترنت والأسماء المناسبة والتعاملات المعدنية، مقارنة بمحلل مورفيم ومزمله لوائح التحميم على مستوى الطابع.
User-generated texts include various types of stylistic properties, or noises. Such texts are not properly processed by existing morpheme analyzers or language models based on formal texts such as encyclopedias or news articles. In this paper, we propose a simple morphologically tight-fitting tokenizer (K-MT) that can better process proper nouns, coinages, and internet slang among other types of noise in Korean user-generated texts. We tested our tokenizer by performing classification tasks on Korean user-generated movie reviews and hate speech datasets, and the Korean Named Entity Recognition dataset. Through our tests, we found that K-MT is better fit to process internet slangs, proper nouns, and coinages, compared to a morpheme analyzer and a character-level WordPiece tokenizer.
المراجع المستخدمة
https://aclanthology.org/