الهدف من هذه الورقة هو وصف العملية التي يتم تنفيذها لتطوير كوربوس في LEL يتألف من النصوص المستخرجة من مواقع الشركات الصغيرة والمتوسطة في جنوب شركات الأسفلية من القطاعات الصحية التي ستكون بمثابة أساس لتقييم جودة MT. مراحل تجميع الشركة الموازية كانت: (1) اختيار المواقع ذات المحتوى المترجم في اللغة الإنجليزية والإسبانية، (2) تنزيل ملفات HTML من مواقع الويب المحددة، (3) الملفات تصفية الملفات الإنجليزي وإقرانها مع مكافئات اللغة الإنجليزية (4) تجميع كوربورا الفردية (EN و ES) لكل من مواقع الويب المحددة، (V) دمج الأفراد الفردي إلى كوربوس عامين واحد باللغة الإنجليزية والآخر في الإسبانية، (6) اختيار نموذج تمثيلي من يتم استخدام شرائح لاستخدامها كترجمات أصلية (EN) وترجمات مرجعية (EN)، (VII)، بناء السور الموازي المقصود لتقييم MT. سوف تعمل Corpus الموازية التي ولدت في تقييم جودة الترجمة الآلية في المستقبل. بالإضافة إلى ذلك، يمكن أن تكون شركة أحادية الناتجة التي تم إنشاؤها أثناء العملية كقاعدة لتنفيذ البحوث التي تركز على التحليل اللغوي - ثنائي اللغة أو أحادي الأجل.
The aim of this paper is to describe the process carried out to develop a paral-lel corpus comprised of texts extracted from the corporate websites of south-ern Spanish SMEs from the sanitary sector which will serve as the basis for MT quality assessment. The stages for compiling the parallel corpora were: (i) selection of websites with content translated in English and Spanish, (ii) downloading of the HTML files of the selected websites, (iii) files filtering and pairing of English files with their Spanish equivalents, (iv) compilation of individual corpora (EN and ES) for each of the selected websites, (v) merging of the individual corpora into a two general corpus one in English and the other in Spanish, (vi) selection a representative sample of segments to be used as original (ES) and reference translations (EN), (vii) building of the parallel corpus intended for MT evaluation. The parallel corpus generated will serve to future Machine Translation quality assessment. In addition, the monolingual corpora generated during the process could as a base to carry out research focused on linguistic -- bilingual or monolingual − analysis.
References used
https://aclanthology.org/
In this paper we describe the process of build-ing a corporate corpus that will be used as a ref-erence for modelling and computing threadsfrom conversations generated using commu-nication and collaboration tools. The overallgoal of the reconstructio
The current random behavior of stakeholders within the Al-Abrash river basin in Syrian coastal region, the lake and the river, threatens more than ever to pollute the whole basin. The goal of this paper is to address the state of shared management of
Conversations are often held in laboratories and companies. A summary is vital to grasp the content of a discussion for people who did not attend the discussion. If the summary is illustrated as an argument structure, it is helpful to grasp the discu
Recently, a number of commercial Machine Translation (MT) providers have started to offer glossary features allowing users to enforce terminology into the output of a generic model. However, to the best of our knowledge it is not clear how such featu
This work introduces Itihasa, a large-scale translation dataset containing 93,000 pairs of Sanskrit shlokas and their English translations. The shlokas are extracted from two Indian epics viz., The Ramayana and The Mahabharata. We first describe the