ترغب بنشر مسار تعليمي؟ اضغط هنا

في هذا العمل، نقوم بإجراء تحقيق شامل على إحدى المركزيات من أنظمة الترجمة الآلية الحديثة: آلية اهتمام مفوض الترم التشفير.بدافع من مفهوم محاذاة الدرجة الأولى، فإننا نقدم آلية الاهتمام (الصليب) من خلال اتصال متكرر، مما يسمح بالوصول المباشر إلى قرارات ال انتباه / المحاذاة السابقة.نقترح عدة طرق لتضمين مثل هذا التكرار في آلية الاهتمام.التحقق من أدائها عبر مهام ترجمة مختلفة نستنتج أن هذه الملحقات والتبعية ليست مفيدة لأداء الترجمة من بنية المحولات.
نقترح طريقة لتقطير معنى المعنى اللاإرادي للغات من تشفير الجملة متعددة اللغات.عن طريق إزالة المعلومات الخاصة باللغة من التضمين الأصلي، نسترجع التضمين الذي يمثله بشكل كامل معنى الجملة.تعتمد الطريقة المقترحة فقط على Corpora الموازي دون أي شروح بشرية.يتي ح Edgedding المعنى لدينا تقدير تشابه تشابه التشابه من خلال حساب التشابه الجيبائي البسيط.النتائج التجريبية على حد كلا تقدير الجودة للترجمة الآلية ومهام التشابه النصي من الدلالات المتبادلة - أن طريقتنا تتفوق باستمرار على خطوط الأساس القوية باستخدام التضمين الأصلي متعدد اللغات.تعمل طريقتنا باستمرار على تحسين أداء أي تشفير جملة متعددة اللغات المدربة مسبقا، حتى في أزواج لغة الموارد المنخفضة حيث تتوفر عشرات الآلاف فقط من أزواج الجملة بالتوازي.
في الآونة الأخيرة، أصبح تحول المجال، الذي يؤثر على الدقة بسبب الاختلافات في البيانات بين المجالات المصدر والمستهدفة، مشكلة خطيرة عند استخدام أساليب تعلم الآلة لحل مهام معالجة اللغة الطبيعية. مع إجراء محاولات إضافية وضبطا جيدا باستخدام كوربوس المجال ا لمستهدف، يمكن أن معالجة نماذج المحدبة مثل Bert (تمثيلات التشفير الثنائية من المحولات) معالجة هذه المشكلة. ومع ذلك، فإن الاحيلاء الإضافي لنموذج بيرت صعب لأنه يتطلب موارد حسابية كبيرة. إن التعلم بكفاءة التعلم الذي يصنف بدائل الرمز المميز بدقة (Electra) يحل محل النمذجة المصنوعة من النمذجة الملاعمة للطريقة الملثمين من Bert Prodraining مع طريقة تسمى اكتشاف الرمز المميز، مما يحسن الكفاءة الحسابية ويسمح بإحاطاء نموذجي إلى حد عملي. هنا، نقترح طريقة لمعالجة الكفاءة الحسابية لنماذج الاحتجاج في نوبة المجال من خلال إنشاء نموذج محاولات إلكترونية على مجموعة بيانات يابانية وإحاطا إضافي هذا النموذج في مهمة المصب باستخدام Corpus من المجال المستهدف. لقد شيدنا نموذجا محددا ل Electra باللغة اليابانية وأجريت تجارب في مهمة تصنيف المستندات باستخدام بيانات من المقالات الإخبارية اليابانية. تظهر النتائج أنه حتى نموذج أصغر من النموذج المحدد يؤدي بشكل جيد بنفس القدر.
تم استخدام نماذج ترميز فك التشفير بشكل شائع للعديد من المهام مثل الترجمة الآلية وتوليد الاستجابة.كما ذكرت البحث السابق، تعاني هذه النماذج من توليد التكرار الزائد.في هذا البحث، نقترح آلية جديدة لنماذج تشفير التشفير التي تقدر الاختلاف الدلالي في جملة م صدر قبل وبعد تغذية في نموذج فك التشفير لالتقاط الاتساق بين الجانبين.تساعد هذه الآلية في تقليل الرموز التي تم إنشاؤها مرارا وتكرارا لمجموعة متنوعة من المهام.نتائج التقييم على مجموعات بيانات توليد الترجمة والاستجابة المتاحة للجمهورية توضح فعالية اقتراحنا.
في هذه الورقة، نقدم نظام NICT (NICT-2) المقدم إلى المهمة المشتركة NICT-SAP في ورشة العمل الثامنة حول الترجمة الآسيوية (WAT-2021).ميزة نظامنا هي أننا استخدمنا بارت بعدة اللغات المسبقة (محول تراجع ثنائي الاتجاه وتراجع تلقائي؛ نموذج mbart).نظرا لأن النم اذج المتاحة للجمهور لا تدعم بعض اللغات في مهمة NIST-SAP، أضفنا هذه اللغات إلى نموذج MBART ثم تدربها باستخدام Orgy Corpora المستخرجة من Wikipedia.نحن نضقل النموذج MBART الموسع باستخدام Corpora الموازي المحدد بواسطة مهمة NIST-SAP.تحسنت درجات بلو بشكل كبير مقارنة بتلك الأنظمة دون النموذج المحدد، بما في ذلك اللغات الإضافية.
تم تطبيق الشبكات التنافسية الرسمية (GCNS) مؤخرا لتصنيف النص وإنتاج أداء ممتاز. ومع ذلك، فإن الأساليب القائمة على GCN القائمة لا تتحمل بنية دلالة كامنة واضحة للمستندات، مما يجعل التمثيلات المستفادة أقل فعالية ويصعب تفسيرها. كما أنها تتجاوز الطبيعة، وب التالي لا يمكن التعامل مع مستندات خارج الجرأ. لمعالجة هذه المشكلات، نقترح نموذج رواية باسم الرسم البياني التلقائي الإحسابي، الذي يشتمل على نموذج موضوع في التشفير التلقائي التلقائي (VGAE) لالتقاط المعلومات الدلالية المخفية بين المستندات والكلمات. ترث T-VGAE إمكانية تفسير نموذج الموضوع وآلية انتشار المعلومات الفعالة من VGAE. يتعلق الأمر بالتمثيلات الاحتمالية للكلمات والمستندات من خلال ترميز الرسم العالمي وإعادة بناء الرسوم البيانية العالمية على مستوى الكلمة والرسوم البيانية ذات الأطباء الحيوي، حيث يتم اعتبار كل مستند بشكل فردي وتثبيتها من الرسم البياني العلوي العالمي لتمكين التعلم الاستقرائي. تبين تجاربنا على عدة مجموعات من مجموعات البيانات القياسية أن أسلوبنا تتفوق على النماذج التنافسية الحالية على تصنيف النص الإشراف وشبه إشراف، وكذلك تعلم تمثيل النص غير المدقق. بالإضافة إلى ذلك، فإنه يحتوي على زيادة الترجمة الترجمة الشاملة وقادرة على التعامل مع المستندات غير المرئية.
نظرا لفعاليتها وأدائها، اجتذب نموذج الترجمة المحولات اهتماما واسعا، مؤخرا من حيث النهج القائمة على التحقيق. يركز العمل السابق على استخدام أو التحقيق في الميزات اللغوية المصدر في التشفير. حتى الآن، فإن الطريقة التي تتطور فيها ترجمة كلمة تتطور في طبقات المحولات لم يتم التحقيق فيها بعد. ساذجا، قد يفترض المرء أن طبقات التشفير التقاط معلومات المصدر أثناء ترجمة طبقات فك التشفير. في هذا العمل، نظير على أن هذا ليس كذلك: الترجمة تحدث بالفعل تدريجيا في طبقات التشفير وحتى في تضمين المدخلات. أكثر من المستغرب، نجد أن بعض طبقات وحدة فك التشفير المنخفضة لا تفعل ذلك بالفعل فك التشفير. نعرض كل هذا من حيث النهج التحقيق حيث نعلم تمثيلات الطبقة التي تم تحليلها إلى مستوى التصنيف المدربين والمجمد النهائي من وحدة فك الترميز المحول لقياس دقة ترجمة Word. تحفز النتائج التي توصلنا إليها وشرح تغيير تكوين محول: إذا حدث الترجمة بالفعل في طبقات التشفير، فربما يمكننا زيادة عدد طبقات التشفير، مع تقليل عدد طبقات فك ترميز أو زيادة سرعة فك التشفير، دون خسارة في جودة الترجمة؟ تبين تجاربنا أن هذا هو في الواقع الحالة: يمكننا زيادة السرعة إلى عامل 2.3 مع مكاسب صغيرة في جودة الترجمة، في حين أن تكوين التشفير العميق 18-4 يعزز جودة الترجمة عن طريق +1.42 بلو (EN-DE) بسرعة -1.4 1.4.
تتطلب تضمين الوثائق الحالية شركة تدريبية كبيرة ولكنها تفشل في تعلم تمثيلات عالية الجودة عند مواجهة عدد صغير من المستندات الخاصة بالمجال والشروط النادرة. علاوة على ذلك، يقومون بتحويل كل وثيقة إلى متجه تضمين واحد، مما يجعل من الصعب التقاط مفاهيم مختلفة من تشابه الوثيقة أو شرح سبب اعتبار المستندين مماثلة. في هذا العمل، نقترح تشفير المجال الأوجه لدينا، ونهج رواية لتعلم Admeddings متعددة الأوجه للمستندات الخاصة بالمجال. يعتمد ذلك على بنية شبكة عصبية سيامي ويعزز الرسوم البيانية المعرفة لتعزيز المدينات حتى لو كانت بعض عينات التدريب فقط متوفرة. يحدد النموذج أنواعا مختلفة من معرفة المجال وترميزها في أبعاد منفصلة من التضمين، مما يتيح طرق متعددة لإيجاد ومقارنة المستندات ذات الصلة في مساحة المتجهات. نقيم نهجنا على مجموعة بيانات قياسية وتجد أنه يحقق نفس جودة التضمين كطرازات حديثة بينما تتطلب سوى جزء صغير من بيانات التدريب الخاصة بهم فقط. تتوفر تجريبي تفاعلي ومجموعاتنا المصدر ومجموعات بيانات التقييم عبر الإنترنت: https://hpi.de/naumann/s/multifaceted-emberdings و screencast متاح على Youtube: https://youtu.be/hhcsx2clewg
نحن غالبا ما نستخدم الاضطرابات لتنظيم النماذج العصبية.بالنسبة للكشف عن المشفر العصبي، طبقت الدراسات السابقة أخذ العينات المجدولة (بنغيو وآخرون.، 2015) والاضطرابات الخصومة (SATO et al.، 2019) كشراءات ولكن هذه الطرق تتطلب وقتا حسابيا كبيرا.وبالتالي، فإ ن هذه الدراسة تعالج مسألة ما إذا كانت هذه الأساليب فعالة بما يكفي لتدريب الوقت.قارنا العديد من الاضطرابات في مشاكل التسلسل إلى التسلسل فيما يتعلق بالوقت الحاسوبية.تظهر النتائج التجريبية أن التقنيات البسيطة مثل Hold Dropout (GAL و GHAHRAMANI، 2016) واستبدال عشوائي من الرموز المدخلات يحققون درجات قابلة للمقارنة (أو أفضل) إلى الاضطرابات المقترحة مؤخرا، على الرغم من أن هذه الطرق البسيطة أسرع.
نقدم في هذا البحث تطبيق جديد للرسوم البيانية لمعامل الديناميكي( DFGs )، و الذي يختص بنمذجة موضوع، تصنيف النص و استرجاع المعلومات.هذه العوامل الديناميكية مصممة لتشكل متتالية من الوثائق ذات الطابع الزمني. اعتماداً على أساس فن معمارية الترميز التلقائي، يتم تدريب نموذج متعدد الطبقات غير الخطي على مراحل باسلوب حكيم لإنتاج أكثر لتمثيلات مدمجة لحقائب الكلمات عند تسوية وثيقة أو فقرة ، و بهذا يؤدي تحميل دلالي. أنو أيضا ديناميكيات زمنية بسيطة مدمجة على التمثيلات الكامنة ، للإستفادة من البنية الهرمية لسلسلة الوثائق، و يمكن بشكل متزامن إنجاز تصنيفات مراقبة أو الانحدار على عناوين الوثيقة،التي يجعل طريقتنا فريدة من نوعها. تعلم هذا النموذج يتم من خلال تعظيم الإمكانية المشتركة للترميز، فك الترميز،معايير ديناميكية موجهة، و من الممكن استخدام الحد الأعظمي لاستنتاج خلفيي معتمدا على التقريب و الانحدار. يمكننا شرح و تفسير أن تخفيض خسارة الانتروبي الموزونة بين رسومات حوادث الكلمة و اعادة بناءها، يتم بتصغير احتمال نموذج الموضوع، و اظهار أن نموذج موضوعنا يحتوي الاحتمالية الأدنى من توزيعات ديريتشمت الكامنة على أنظمة معالجة المعلومات الطبيعية( Neural Information) ( NIPS Processing Systems ) و حالة مجموعات البيانات المشتركة. لنوضح كيف أن القيود الديناميكية تساعد على التعلم بينما يمكننا و يساعدنا هذا على تصور منحى مسار الموضوع .
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا