تمثل شركة كورسا الكبيرة من الويب موردا ممتازا لتحسين أداء أنظمة الترجمة الآلية العصبية (NMT) عبر العديد من أزواج اللغة. ومع ذلك، نظرا لأن هذه كورسيا صاخبة للغاية، فإن استخدامها محدود إلى حد ما. تركز النهج الحالية للتعامل مع هذه المشكلة أساسا على التر
شيح باستخدام الاستدلال أو ميزات واحدة مثل درجات نموذج اللغة أو التشابه الثنائي اللغوي. يقدم هذا العمل نهجا بديلا يتعلم الأوزان لميزات متعددة على مستوى الجملة. يتم استخدام هذه الأوزان الميزة التي تم تحسينها مباشرة لمهمة تحسين أداء الترجمة، وتسجيل الجمل والتصفية في كورسا صاخبة بشكل أكثر فعالية. نحن نقدم نتائج تطبيق هذه التقنية لبناء أنظمة NMT باستخدام Corpus Paracrawl For Estonian-English وإظهار أنه يدق خطوط خطوط ميزة واحدة قوية ومجموعات مصممة باليد. بالإضافة إلى ذلك، نقوم بتحليل حساسية هذه الطريقة لأنواع مختلفة من الضوضاء واستكشاف إذا تعميم الأوزان المستفادة إلى أزواج لغة أخرى باستخدام Corpus Maltese-English Paracrawl Corpus.
توفر تبسيط الجملة المتوازي (SS) نادرة لأوصوامل SS العصبية. نقترح طريقة غير منشأة لبناء SS Corpora من Translation Translation ثنائي اللغة واسعة النطاق، مما يخفف من الحاجة إلى SS Corporged Corge. يتم تحفيز طريقتنا عن طريق النتائج التالية: يميل نموذج ال
ترجمة الآلية العصبية عادة إلى توليد المزيد من الرموز عالية التردد وفرق مستويات التعقيد النصية موجودة بين المصدر واللغة المستهدفة ل Translation Corpus. من خلال أخذ زوج من المصدر الجمل من Corpus Translation وترجمات مراجعها في لغة الجسر، يمكننا إنشاء بيانات SS موازية زائفة واسعة النطاق. بعد ذلك، نبقي أزواج الجملة هذه مع اختلاف أعلى تعقيد كزواج من جملة SS. يمكن أن تلبي المبنى SS Corpora مع نهج غير مدفوع التوقعات بأن الأحكام المحاذاة تحافظ على نفس المعاني وأن يكون لها اختلاف في مستويات تعقيد النص. تظهر النتائج التجريبية أن أساليب SS التي تدربت بها كوربورا تحقق النتائج من أحدث النتائج وتفوق النتائج على نتائج اللغة الإنجليزية في Wikilarge.
تمكين أنظمة حوار المجال المفتوح لطرح أسئلة توضيحية عند الاقتضاء هو اتجاه مهم لتحسين جودة استجابة النظام.وهي، بالنسبة للحالات عندما يكون طلب المستخدم غير محددا لنظام محادثة لتوفير إجابة على الفور، فمن المستحسن طرح سؤال توضيحي لزيادة فرص استرداد إجابة
مرضية.لمعالجة مشكلة توضيح الأسئلة في الحوارات المفتوحة في الحوارات ": (1) نجمع وتحرير مجموعة بيانات جديدة تركز على المحادثات المفتوحة ومتعددة الدورات، (2) نحن معيارا عدة حالاتخطوط الأساس العصبية الفن، و (3) نقترح خط أنابيب يتكون من خطوات غير متصلة بالإنترنت وعلى الإنترنت لتقييم جودة توضيح الأسئلة في حوارات مختلفة.هذه المساهمات مناسبة كمؤسسة لمزيد من البحث.
أدت نماذج اللغة الكبيرة إلى إحراز تقدم ملحوظ في العديد من مهام NLP، ويتحول الباحثون إلى نصائح نصية أكبر من أي وقت مضى لتدريبهم. يتم تقديم بعض أكبر الشركات المتاحة من خلال تجريف أجزاء مهمة من الإنترنت، ويتم إدخالها بشكل متكرر مع الحد الأدنى فقط من الو
ثائق. في هذا العمل، نقدم بعض الوثائق الأولى لجور الزحف النظيف الهائل (C4؛ Raffel et al.، 2020)، مجموعة بيانات تم إنشاؤها عن طريق تطبيق مجموعة من المرشحات إلى لقطة واحدة من الزحف المشترك. نبدأ بالتحقيق في المكان الذي جاءت فيه البيانات، وإيجاد كمية كبيرة من النص من مصادر غير متوقعة مثل براءات الاختراع ومواقع الويب العسكرية الأمريكية. ثم نستكشف محتوى النص نفسه، وإيجاد نص تم إنشاؤه بواسطة الجهاز (E.G.، من أنظمة الترجمة الآلية) وأمثلة التقييم من مجموعات بيانات NLP القياسية الأخرى. لفهم تأثير المرشحات المطبقة على إنشاء هذه البيانات، نقوم بتقييم النص الذي تمت إزالته، وإظهار أن تصفية Blocklist تزيل النص غير متناسب من الأفراد وأصحاب الأقليات. أخيرا، نستنتج بعض التوصيات حول كيفية إنشاء وتوثيق مجموعات بيانات الويب من كشط الإنترنت.
تتمثل إدارة المصطلح والمصطلان بخطوات حيوية لإعداد كل أخصائي لغة، ولعب دورا مهما للغاية في مرحلة تعليم محترفي الترجمة.يتزايد الاتجاه المتزايد من إدارة الوقت الفعالة والقيود الزمنية المستمرة التي قد نلاحظها في كل قطاع عمل بزيادة ضرورة تجميع المسرد التل
قائي.تعتمد العديد من أنظمة AET ثنائية اللغة أداء جيدا على معالجة البيانات الموازية، ومع ذلك، فإن هذه الشركات الموازية ليست متاحة دائما لمجال معين أو زوج لغة.يعد الوصول إلى المجال الخاص، والوصول ثنائي اللغة إلى المعلومات واسترجاعه بناء على شركة Corpora المقارنة مجالا واعدةا كبيرا من البحث يتطلب تحليلا مفصلا لكلا من مصادر البيانات المتوفرة وتقنيات الاستخراج المحتملة.يركز هذا العمل على استخراج المصطلحات التلقائية الخاصة بالمجال من شركة Corga المقارنة للزوج باللغة الإنجليزية - اللغة الروسية من خلال الاستفادة من تضمين الكلمات العصبية.
هناك نقص في شورا عالي الجودة للغات الجنوبية السلافية. مثل هذه الشركات مفيدة لعلماء الكمبيوتر والباحثين في العلوم الاجتماعية والعلوم الإنسانية على حد سواء، مع التركيز على العديد من تطبيقات اللغات والمحتوى وتطبيقات معالجة اللغة الطبيعية. تقدم هذه الورق
ة سيرجال سير عمل للتعدين محتوى ويكيبيديا ومعالجته في كوربورا معالجته اللغوي، المطبق على البوسنة والكبلانية والكرواتية والكرواتية والصلبيون والرويبو الكرواتية والسلوفانية والسلوفينية. نحن نجعل سبعة كوربورا متاحة للجمهور. نعرض هذه كوربورا من خلال مقارنة محتوى ويكيبيديا الأساسي، افتراضنا أن محتوى ويكيبيداس يعكس المصالح على نطاق واسع في موضوعات مختلفة في هذه الدول البلقان. نقوم بإجراء مقارنة المحتوى باستخدام خوارزميات نمذجة الموضوع ومقارنات التوزيع المختلفة. تظهر النتائج أن جميع ويكيبيداس متشابهة موضعيا تماما، مع كلها تغطي الفن والثقافة والأدب، في حين أنها تحتوي على اختلافات في الجغرافيا والسياسة والتاريخ والعلوم.
توفر Argeddings Word عبر اللغات طريقة للمعلومات التي سيتم نقلها بين اللغات.في هذه الورقة، نقيم امتدادا لنهج تدريب مشترك لتعلم التضامن المتبادل الذي يتضمن معلومات الفرعية أثناء التدريب.قد تكون هذه الطريقة مناسبة بشكل خاص لأنها لغات منخفضة الموارد ولغا
ت غنية بالمظورة لأنه يمكن تدريبها على سورانيا أحادية الحجم متواضعة، وهي قادرة على تمثيل الكلمات الخارجية (OOVS).نحن نعتبر تحديي المعجم الثنائي اللغة، بما في ذلك التقييم يركز على OOVs.نجد أن هذه الطريقة تحقق تحسينات حول النهج السابقة، لا سيما بالنسبة إلى OOVS.
تبلغ نماذج الكشف عن اللغة المسيئة للحكومة الأمريكية أداء كبير في Corpus، ولكن أداء الفضل عند تقييم التعليقات المسيئة التي تختلف عن سيناريو التدريب.نظرا لأن الشروح البشرية ينطوي على وقت وجهد كبير، فإن النماذج التي يمكن أن تتكيف مع التعليقات التي تم جم
عها حديثا يمكن أن تكون مفيدة.في هذه الورقة، نحقق في فعالية العديد من نهج تكيف النطاقات غير المدمرة (UDA) لمهمة الكشف عن اللغة المسيئة.بالمقارنة، نقوم بتكييف متغير نموذج BERT، تدربت على تعليقات مسيئة واسعة النطاق، باستخدام طراز لغة ملثم (MLM)يوضح تقييمنا أن نهج UDA تؤدي إلى أداء فرعي الأمثل، في حين أن ضبط الريامة الجميلة لا يتحسن في إعداد العرض.يكشف التحليل المفصل عن حدود نهج UDA ويؤكد على الحاجة إلى بناء طرق تكيف فعالة لهذه المهمة.
تضمين الكلمات والمفاهيم التقاط الانتظام النحوية والدلالة للغة؛ومع ذلك، فقد شهدوا استخداما محدودا كأدوات لدراسة خصائص Corpora المختلفة وكيف تتعلق ببعضها البعض.نقدم TECTESSENCE، نظام تفاعلي مصمم لتمكين التحليل المقارن لشركة Corpora باستخدام AdmEdings.ي
شمل Textessence أوضاع مرئية ومقرها الجوار والمشاكل في تضمين التحليل في واجهة خفيفة الوزن واستنادا على الويب.نقترح مزيدا من الإجراءات الجديدة لتضمين الثقة بناء على أقرب تداخل حي، للمساعدة في تحديد المدينات عالية الجودة لتحليل Corpus.توضح دراسة حالة عن الأدبيات العلمية Covid-19 فائدة النظام.يمكن العثور على Textessence في https://textessence.github.io.
نحن ندرب ونختبر خمسة علامات مفتوحة المصدر، والتي تستخدم أساليب مختلفة، على ثلاثة كوربورا السويدية، وهي ذات حجم مماثل ولكن استخدام أشكال مختلفة.يحقق Tagger KB-Bert Tagger أعلى دقة لعلامات جزء من الكلام والمورفولوجية، بينما تكون سريعة بما يكفي للاستخدا
م العملي.نحن نقارن أيضا الأداء عبر الأشرقة وعبر الأنواع المختلفة في إحدى الشركات.نقوم بإجراء تحليل الأخطاء اليدوي وأداء تحليل إحصائي للعوامل التي تؤثر على مدى صعوبة علامات محددة.أخيرا، نقوم باختبار أساليب الفرقة، والتي تبين أن التحسن الصغير (ولكن غير مهم) على أفضل أداء يمكن تحقيقه.