تعتمد معظم دراسات معالجة اللغة الطبيعية الأخيرة (NLP) على النهج الضميني - PFA (PFA)، ولكن في المؤسسات أو الشركات الصغيرة والمتوسطة مع الأجهزة غير الكافية، هناك العديد من القيود لخدمة برنامج تطبيق NLP باستخدام هذه التكنولوجيا بسبب هذه التكنولوجيا سرعة بطيئة وذاكرة غير كافية. تتطلب أحدث تقنيات PFA كميات كبيرة من البيانات، خاصة لغات الموارد المنخفضة، مما يجعلها أكثر صعوبة في العمل معها. نقترح طريقة جديدة للتكامل، قطعة واحدة، لمعالجة هذا القيد الذي يجمع بين طريقة تشغيل الكلمات الفرعية التي تعتبر الكلمات الفرعية التي تعتبرها المورفولوجيا وطريقة المفردات المستخدمة بعد التحقيق في طريقة حالية لم تعتبر بعناية من قبل. يمكن أيضا استخدام طريقةنا المقترحة دون تعديل هيكل النموذج. نقوم بتجربة تطبيق قطعة واحدة إلى اللغة الكورية والغنية بالموراطية والموارد المنخفضة. ونحن نستمد نتيجة تكييف الكلمات الفرعية المثلى للترجمة الآلية الكورية والإنجليزية من خلال إجراء دراسة حالة تجمع بين طريقة تكتيح الكلمات الفرعية، والتجزئة المورفولوجية، وطريقة المفردات. من خلال التجارب المقارنة مع جميع أساليب التكامل المستخدمة حاليا في بحث NLP، تحقق قطعة واحدة أداء قابلة للمقارنة مع النموذج الحالي للترجمة الآلية الكورية والإنجليزية الحالية.
Most of the recent Natural Language Processing(NLP) studies are based on the Pretrain-Finetuning Approach (PFA), but in small and medium-sized enterprises or companies with insufficient hardware there are many limitations to servicing NLP application software using such technology due to slow speed and insufficient memory. The latest PFA technologies require large amounts of data, especially for low-resource languages, making them much more difficult to work with. We propose a new tokenization method, ONE-Piece, to address this limitation that combines the morphology-considered subword tokenization method and the vocabulary method used after probing for an existing method that has not been carefully considered before. Our proposed method can also be used without modifying the model structure. We experiment by applying ONE-Piece to Korean, a morphologically-rich and low-resource language. We derive an optimal subword tokenization result for Korean-English machine translation by conducting a case study that combines the subword tokenization method, morphological segmentation, and vocabulary method. Through comparative experiments with all the tokenization methods currently used in NLP research, ONE-Piece achieves performance comparable to the current Korean-English machine translation state-of-the-art model.
References used
https://aclanthology.org/
Multilingual neural machine translation models typically handle one source language at a time. However, prior work has shown that translating from multiple source languages improves translation quality. Different from existing approaches on multi-sou
Many NLP models operate over sequences of subword tokens produced by hand-crafted tokenization rules and heuristic subword induction algorithms. A simple universal alternative is to represent every computerized text as a sequence of bytes via UTF-8,
Multilingual Neural Machine Translation (MNMT) trains a single NMT model that supports translation between multiple languages, rather than training separate models for different languages. Learning a single model can enhance the low-resource translat
Most work in NLP makes the assumption that it is desirable to develop solutions in the native language in question. There is consequently a strong trend towards building native language models even for low-resource languages. This paper questions thi
We participated in all tracks of the WMT 2021 efficient machine translation task: single-core CPU, multi-core CPU, and GPU hardware with throughput and latency conditions. Our submissions combine several efficiency strategies: knowledge distillation,