ترغب بنشر مسار تعليمي؟ اضغط هنا

من المعروف أن طريقة المزيج (تشانغ وآخرون، 2017)، واحدة من أساليب تكبير البيانات، من المعروف أنها سهلة التنفيذ والفعالة للغاية. على الرغم من أن طريقة المزيج مخصصة لتحديد الصور، إلا أنه يمكن تطبيقه أيضا على معالجة اللغة الطبيعية. في هذه الورقة، نحاول ت طبيق طريقة المزيج إلى مهمة تصنيف المستندات باستخدام تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت) (ديفلين وآخرون، 2018). نظرا لأن Bert يسمح بإدخال الإصدارين من الجملة، فإننا نسقط تسلسل الكلمات من مستندتين مع ملصقتين مختلفتين واستخدمت الإخراج متعدد الفصول كبيانات خاضعة للإشراف مع ناقل ساخن واحد. في تجربة باستخدام Corpus أخبار Livedoor، وهي اليابانية، قارننا دقة تصنيف المستندات باستخدام طريقتين لاختيار المستندات المراد متسلسلا بتصنيف المستندات العادي. نتيجة لذلك، وجدنا أن الطريقة المقترحة أفضل من التصنيف العادي عند خلط المستندات التي تحتوي على نقص التسميات بشكل تفضيلي. يشير هذا إلى أن كيفية اختيار مستندات المزيج لها تأثير كبير على النتائج.
يستخدم نظام ذاكرة الترجمة (TM)، وهو مكون رئيسي للترجمة بمساعدة الكمبيوتر (CAT)، على نطاق واسع لتحسين إنتاجية المترجمين البشريين من خلال تقديم استخدام فعال للمورد المترجم سابقا.نقترح طريقة لتحقيق استرجاع عالي السرعة من ذاكرة الترجمة الكبيرة عن طريق تق ييم التشابه بناء على نموذج ناقل، وتقديم النتيجة التجريبية.من خلال تجربتنا باستخدام Lucene، محرك بحث استرجاع لاسترجاع المعلومات مفتوح المصدر، نستنتج أنه من الممكن تحقيق سرعة استرجاع في الوقت الفعلي لن حول عشرات من ميكروثونات حتى بالنسبة لذاكرة الترجمة الكبيرة مع 5 ملايين زوج قطاعي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا