ترغب بنشر مسار تعليمي؟ اضغط هنا

تعد مخصصات المجال لتقسيم الكلمات وعلامات نقاط البيع مشكلة صعبة للمعالجة المعجمية الصينية. التدريب الذاتي هو حل واعد فيه، الذي يكافح من أجل بناء مجموعة من مثيلات التدريب الزائفة عالية الجودة للنطاق المستهدف. عادة ما يفترض العمل السابق تكييفا عالميا من المصادر إلى الهدف لجمع مثل هذه الكائنات الزائفة، مما يتجاهل الفجوات المختلفة من الجمل المستهدفة إلى مجال المصدر. في هذا العمل، نبدأ من تجزئة الكلمات المشتركة ووضع علامات على نقاط البيع، وتقديم طريقة تكييف مجال Ground-Gromins لنموذج الفجوات بدقة. نقيس الفجوات بواسطة متري واحد بسيط وبديهي، واعتمادها لتطوير كوربوس المجال المستهدف الزائف بناء على النطاقات الفرعية المحبوبة بشكل جيد تدريجيا. يقترح نموذج التعلم التمثيل المختلط بين المجال الجديد وفقا لذلك لترميز المجال الفرعي المتعدد بشكل فعال. يتم تنفيذ العملية بأكملها تدريجيا لكل من Corpus Construction والنموذج التدريب. تظهر النتائج التجريبية على مجموعة بيانات معيار أن طريقتنا يمكن أن تكتسب تحسينات كبيرة على تختلف عن خطوط الأساس. يتم إجراء تحليلات واسعة لإظهار مزايا نموذج تكييف المجال النهائي لدينا أيضا.
تتمتع النموذج المستنى بالضمان بشعبية كبيرة في الأعمال الأخيرة من تجزئة التسلسل.ومع ذلك، فإن كل من هذه الطرق تعاني من عيوبها الخاصة، مثل التنبؤات غير الصالحة.في هذا العمل، نقدم نموذجا موحدا أساسيا، تحليل وحدة معجمية (LUA)، التي تتناول كل هذه الأمور.تج زئة تسلسل وحدة معجمية ينطوي على خطوتين.أولا، قمنا بتضمين كل فترة باستخدام التمثيلات من نموذج لغة المحدد.ثانيا، نحدد درجة لكل مرشح تجزئة وتطبيق البرمجة الديناميكية (DP) لاستخراج المرشح بحد أقصى درجة.لقد أجرينا تجارب مكثفة في 3 مهام، (على سبيل المثال، تصنيع النحوية)، عبر 7 مجموعات من مجموعات البيانات.أنشأت لوا عروضا جديدة من الفنادق الجديدة في 6 منها.لقد حققنا نتائج أفضل من خلال دمج ارتباطات التسمية.
توضح طبيعة عدم وجود كلمة أو انعكاس كلمة يمكن أن تشير إلى حدود القطاع أو دلالات الكلمة من صعوبة فهم النص الصيني، كما تكثف الطلب على المعرفة الدلالية على مستوى الكلمات لإنجاز هدف وضع العلامات في مهام التجزئة والصينية. ومع ذلك، بالنسبة لمهام تجزئة المجا ل الصيني والعلامات الصينية غير الخاضعة للرقابة، يعاني النموذج المدرب على المجال المصدر بشكل متكرر من المعرفة الدلالية ذات مستوى الكلمة الناقص بالمجال المستهدف. لمعالجة هذه المشكلة، نقترح نموذجا جديدا يعتمد على تكبير الانتباه لإدخال معرفة كبيرة عبر المجال عبر نظام الترجمة. تتيح النموذج المقترح الانتباه النموذجي إلى رسم المعرفة عبر المجال المشار إليها بواسطة المحاذاة المتبادلة على مستوى الكلمات الضمنية بين المدخلات والترجمة المقابلة لها. بصرف النظر عن النموذج الذي يتطلب الإدخال عبر اللغات، فإننا نؤسس أيضا نموذجا خارج الرف الذي يهرب من الاعتماد على الترجمات عبر اللغات. توضح التجارب أن اقتراحنا يتقدم بدرجة كبيرة نتائج أحدث النتائج من مجزأة الصينية المجال ومهام وضع العلامات.
تجزئة الكلمات، مشكلة إيجاد حدود الكلمات في الكلام، تهم مجموعة من المهام.اقترحت الأوراق السابقة أن نماذج تسلسل إلى تسلسل تدربت على مهام مثل ترجمة الكلام أو التعرف على الكلام، ويمكن استخدام الاهتمام لتحديد الكلمات والجزء.ومع ذلك، نوضح ذلك حتى على بيانا ت أحادية النظرة هشة.في تجاربنا ذات أنواع المدخلات المختلفة، أحجام البيانات، وخوارزميات تجزئة، فقط النماذج المدربة على التنبؤ بالهواتف من الكلمات تنجح في المهمة.النماذج المدربة للتنبؤ بالكلف من الهواتف أو الكلام (أي، الاتجاه المعاكس الذي يحتاج إلى تعميم البيانات الجديدة)، يؤدي إلى نتائج أسوأ بكثير، مما يشير إلى أن التجزئة القائمة على الانتباه مفيد فقط في سيناريوهات محدودة.
تقارير هذه الورقة تحسين استخدام البيانات خارج المجال في مهمة الترجمة الطبية الحيوية.حددنا أولا مجموعة بيانات التدريب الموازية باستخدام كلمات مصطلحات Babelnet داخل المجال.بعد ذلك، لزيادة مجموعة التدريب، درسنا آثار بيانات خارج المجال حول مهام الترجمة ا لطبية الحيوية، وقد أنشأنا مزيجا من مجموعات التدريب داخل المجال والخروج وإضافة بيانات أكثر داخل المجال باستخدامالترجمة إلى الأمام في المهمة الإنجليزية الإسبانية.أخيرا، مع طريقة تحسين BPE بسيطة، قمنا بزيادة عدد الكلمات الفرعية داخل المجال في مجموعة التدريب المختلطة لدينا وتدريب طراز المحول على البيانات التي تم إنشاؤها.تظهر النتائج تحسينات باستخدام طريقة لدينا المقترحة.
تصف هذه الورقة تقديم مختبر Tencent AI المهمة المشتركة WMT2021 على الترجمة الطبية الحيوية في ثمانية اتجاهات اللغة: الإنجليزية والألمانية والفرنسية والفرنسية والإنجليزية والإسبانية والإنجليزية الروسية.استغلنا بديكنات محولات مختلفة واستراتيجيات الترجمة المرجانية وتحسينها لتحسين جودة الترجمة.بشكل ملموس، نستكشف MBART (ليو وآخرون، 2020) لإظهار فعالية استراتيجية الاحتجاج.تحتل إرسال طلباتنا (Tencent AI Lab Machine Translation، TMT) باللغة الألمانية / الفرنسية / الإسبانية⇒إنجللوي على التوالي وفقا لنتائج التقييم الرسمي من حيث درجات بلو.
تم تطبيق نماذج تجزئة الكلمات القائمة على الأحرف على نطاق واسع على اللغات الشاقة، بما في ذلك التايلاندية، بسبب أدائها العالي.هذه النماذج تقدر حدود الكلمات من تسلسل الأحرف.ومع ذلك، فإن وحدة الأحرف في تسلسل ليس لها معنى أساسي، مقارنة بكل وحدات الكتلة ال كلمة والكلمة الفرعية.نقترح نموذج تجزئة الكلمات التايلاندية يستخدم أنواعا مختلفة من المعلومات، بما في ذلك الكلمات والكلمات الفرعية ومجموعات الأحرف، من تسلسل الأحرف.ينطبق نموذجنا على انتباه متعددة لتحسين استنتاجات تجزئة من خلال تقدير العلاقات الكبيرة بين الشخصيات وأنواع الوحدات المختلفة.تشير النتائج التجريبية إلى أن نموذجنا يمكن أن يتفوق على نماذج تجزئة الكلمات التايلاندية الأخرى.
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم فردات الدوافع اللغوية (LMVR) مقابل الجملة الأكثر استخداما (SP) لمهمة الترجمة من اللغة الإنجليزية إلى أربعة لغات Dravidian مختلفة.بالإضافة إلى ذلك، نحقق في حجم المفردات الفرعية المثلى لكل لغة.نجد أن SP هو الخيار الأكثر شمولا للتجزئة، وأن أحجام القاموس الأكبر تؤدي إلى جودة الترجمة الأعلى.
تجزئة موضوع الحوار أمر بالغ الأهمية في العديد من مشاكل نموذج الحوار.ومع ذلك، فإن النهج الشائعة غير المعينة الشائعة لاستغلال الميزات السطحية فقط في تقييم التماسك الموضعي بين الكلام.في هذا العمل، نتعامل مع هذا القيد من خلال الاستفادة من الإشارات الإشرا فية من مهمة التسجيل في اتساق زوج الكلام.أولا، نقدم استراتيجية بسيطة ولكنها فعالة لتوليد كوربوس التدريب لتسجيلات التماسك زوج الكلام.بعد ذلك، ندرب نموذج متماسك نطق برت مقره برت مع Corpus التدريب الذي تم الحصول عليه.أخيرا، يتم استخدام هذا النموذج لقياس الملاءمة الموضعية بين الكلام، والتصرف كأساس لاستدلال التجزئة.تجارب على ثلاث مجموعات بيانات عامة باللغة الإنجليزية والصينية توضح أن اقتراحنا يتفوق على خطوط الأساس الحديثة.
الأساليب السابقة لتجزئة النص هي في الغالب على مستوى الرمز المميز.على الرغم من الكفاية، تحد هذه الطبيعة من إمكاناتها الكاملة لالتقاط التبعيات طويلة الأجل بين القطاعات.في هذا العمل، نقترح إطارا جديدا يزدر أدرج جمل اللغة الطبيعية في مستوى القطاع.لكل خطو ة في تجزئة، يعترف الجزء الأكبر في أقصى اليسار من التسلسل المتبقي.تنطوي التطبيقات على تقنية LSTM-ناقص لبناء تمثيل العبارات والشبكات العصبية المتكررة (RNN) لنموذج تكرارات تحديد الأقصى اليمنى.لقد أجرينا تجارب واسعة النطاق على العلامات على الجزء العلوي من قطع البيانات والصينية (POS) عبر 3 مجموعات من مجموعات البيانات، مما يدل على أن أساليبنا تتفوق بشكل كبير على جميع خطوط الأساس السابقة وحققت نتائج جديدة من الفنادق الجديدة.علاوة على ذلك، فإن التحليل النوعي والدراسة حول تجزئة الجمل الطويلة الطويلة تحقق من فعاليته في نمذجة التبعيات طويلة الأجل.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا