تعد صياغة صياغة Reprrase مهمة صعبة تعزز تحويل جملة مدخلية معقدة معينة إلى جمل متعددة أقصر معاداة معنى معادل. نهج إعادة كتابة هذا تصور أن الجمل الأقصر تستفيد من القراء البشري وتحسين مهام الخبراء اللامبرية التي تحضرها كخطوة مسبقة مسبقة. يقدم هذا العمل خط أنابيب كامل قادر على أداء طريقة تقسيم وإعادة الصياغة بطريقة تبادلة. لقد قمنا بتدريب نماذج عصبية التسلسلية من أجل اللغة الإنجليزية وتطبقها على التنبؤ بالتحولات باللغة الإنجليزية والأحكام البرتغالية البرازيلية بالاشتراك مع نمذجة لغة بيرت الملثمين. على عكس الأساليب التقليدية التي تطلب من النماذج التدريبية بالمواد التدريبية المكثفة، نقدم طريقة غير تافهة لبناء تلك الرسومات المعممة فقط عن طريق الطبقات النحوية (علامات نقاط البيع) وتكرار كل منها، مما يقلل من مقدار البيانات التدريبية اللازمة. أظهرت مساهمة خط الأنابيب هذا نتائج تنافسية تشجيع التوسع في الأسلوب لغات أخرى غير الإنجليزية.
Split-and-rephrase is a challenging task that promotes the transformation of a given complex input sentence into multiple shorter sentences retaining equivalent meaning. This rewriting approach conceptualizes that shorter sentences benefit human readers and improve NLP downstream tasks attending as a preprocessing step. This work presents a complete pipeline capable of performing the split-and-rephrase method in a cross-lingual manner. We trained sequence-to-sequence neural models as from English corpora and applied them to predict the transformations in English and Brazilian Portuguese sentences jointly with BERT's masked language modeling. Contrary to traditional approaches that seek training models with extensive vocabularies, we present a non-trivial way to construct symbolic ones generalized solely by grammatical classes (POS tags) and their respective recurrences, reducing the amount of necessary training data. This pipeline contribution showed competitive results encouraging the expansion of the method to languages other than English.
References used
https://aclanthology.org/
We present EventPlus, a temporal event understanding pipeline that integrates various state-of-the-art event understanding components including event trigger and type detection, event argument detection, event duration and temporal relation extractio
Fanfiction presents an opportunity as a data source for research in NLP, education, and social science. However, answering specific research questions with this data is difficult, since fanfiction contains more diverse writing styles than formal fict
An important task in NLP applications such as sentence simplification is the ability to take a long, complex sentence and split it into shorter sentences, rephrasing as necessary. We introduce a novel dataset and a new model for this split and rephra
Code-mixing is a phenomenon of mixing words and phrases from two or more languages in a single utterance of speech and text. Due to the high linguistic diversity, code-mixing presents several challenges in evaluating standard natural language generat
In this technical report, we describe the fine-tuned ASR-MT pipeline used for the IWSLT shared task. We remove less useful speech samples by checking WER with an ASR model, and further train a wav2vec and Transformers-based ASR module based on the fi