ترغب بنشر مسار تعليمي؟ اضغط هنا

تلقت تلخيص محادثة مبادرة إيلاء اهتمام متزايد في حين تعتمد معظم نماذج تلخيص حديثة حديثة من بين الفنون بشدة على ملخصات المشروح بين الإنسان. للحد من الاعتماد على الملخصات المسمى، في هذا العمل، نقدم مجموعة بسيطة ولكنها فعالة من طرق تكبير بيانات المحادثة (CODA) لعلمة محادثة إفراطية شبه إشراف، مثل تبادل / حذف عشوائي لإضطرب علاقات الخطاب داخل المحادثات، والحوار - الإدراج الموجه المرشد بمقاطعة تطوير المحادثات، والاستبدال القائم على الجيل الشرطي لاستبدال الكلام مع صياغةهم الناتجة بناء على سياق المحادثة. لمزيد من الاستفادة من المحادثات غير المستمرة، نجمع بين Coda مع التدريب الذاتي الصاخب على مرحلتين حيث نقوم أولا بتدريب نموذج التلخيص مسبقا على المحادثات غير المسبقة مع ملخصات زائفة، ثم ضبطها على المحادثات المسمى. توضح التجارب التي أجريت في مجموعات بيانات تلخيص المحادثة الأخيرة فعالية أساليبنا على العديد من خطوط خطوط تكبير البيانات في البيانات.
كل من قضايا أوجه القصور في البيانات والاتساق الدلالي مهم لتعزيز البيانات.معظم الطرق السابقة تعالج القضية الأولى، ولكن تجاهل المرحلة الثانية.في حالات تحليل المعنويات المستندة إلى جانب الجسيم، قد يغير انتهاك القضايا المذكورة أعلاه قطبية الجانب والمشاعر .في هذه الورقة، نقترح نهج تكبير بيانات الحفاظ على دلالات - من خلال النظر في أهمية كل كلمة في تسلسل نصي وفقا للجوانب والمشاعر ذات الصلة.ثم نحل محل الرموز غير المهتمات مع استراتيجيتين استبدال دون تغيير قطبية مستوى الجانب.يتم تقييم نهجنا على العديد من مجموعات بيانات تحليل المعنويات المتاحة للجمهور وسيناريوهات التنبؤ في مجال الأسهم / المخاطر في العالم الحقيقي.تظهر النتائج التجريبية أن منهجيةنا تحقق أداء أفضل في جميع مجموعات البيانات.
على الرغم من كفاءتها المثبتة في المجالات الأخرى، فإن تكبير البيانات أقل شعبية في سياق معالجة اللغة الطبيعية (NLP) بسبب تعقيدها ونتائج محدودة.أظهرت دراسة حديثة (Longpre et al.، 2020) على سبيل المثال أن تعزز بيانات المهمة غير المرغوية تفشل في تعزيز أدا ء المحولات مسبقا حتى في أنظمة البيانات المنخفضة.في هذه الورقة، نحقق في ما إذا كان جدولة التكبير التي يحركها البيانات وإدماج مجموعة أوسع من التحولات يمكن أن تؤدي إلى تحسين الأداء حيث كانت السياسات الثابتة والمحدودة غير ناجحة.تشير نتائجنا إلى أنه، في حين أن هذا النهج يمكن أن يساعد عملية التدريب في بعض الإعدادات، فإن التحسينات غير صحيحة.هذه النتيجة السلبية تهدف إلى مساعدة الباحثين فهم أفضل قيود تكبير البيانات من أجل NLP.
تعظيم البيانات غير المزعجة (UDA) هي تقنية شبه بيئية تنطبق على فقدان الاتساق لمعاقبة الاختلافات بين تنبؤات النماذج على (أ) أمثلة ملحوظة (غير مسفحة)؛ و (ب) الأمثلة الواضحة المقابلة التي تم إنتاجها عبر تكبير البيانات. في حين أن UDA اكتسبت شعبية لتصنيف ا لنصوص، فإن الأسئلة المفتوحة باقية من قرارات التصميم ضرورية وكيفية تمديد الطريقة لتسلسل مهام وضع العلامات. في هذه الورقة، نعيد فحص UDA وإظهار فعاليتها في العديد من المهام المتسلسلة. مساهمتنا الرئيسية هي دراسة تجريبية ل UDA لتأسيس مكونات الخوارزمية التي تمنح استحقاقات NLP. وخاصة، على الرغم من أن العمل السابق قد أكد على استخدام تقنيات تكبير ذكية بما في ذلك الترجمة ذات الترجمة المرجانية، نجد أن التناسق بين التنبؤات المخصصة للكلمات الملحوظة والمستبدلة غالبا ما تسفر عن فوائد قابلة للمقارنة (أو أكبر) مقارنة بنماذج الاضطرابات الأكثر تعقيدا. علاوة على ذلك، نجد أن تطبيق فقدان اتساق UDA يوفر مكاسب ذات مغزى دون أي بيانات غير قابلة للتحقيق على الإطلاق، أي في إعداد قياسي إشرافي. باختصار، لا تحتاج UDA إلى عدم إدراكها لتحقيق الكثير من فوائدها المذكورة، ولا تتطلب تكبير بيانات معقدة لتكون فعالة.
تقترح هذه الورقة AEDA (أداة تكبير البيانات أسهل) للمساعدة في تحسين الأداء في مهام تصنيف النص.يتضمن AEDA إدراج عشوائي فقط من علامات الترقيم في النص الأصلي.هذه تقنية أسهل لتنفيذ تكبير البيانات من طريقة EDA (Wei و Zou، 2019) مقارنة نتائجنا.بالإضافة إلى ذلك، فإنه يحتفظ بترتيب الكلمات أثناء تغيير مواقعهم في الجملة المؤدية إلى أداء أفضل معمم.علاوة على ذلك، فإن عملية الحذف في إيدا يمكن أن تسبب فقدان المعلومات التي، بدورها تضلل الشبكة، في حين أن Aeda يحافظ على جميع معلومات الإدخال.بعد خط الأساس، نقوم بإجراء تجارب على خمسة مجموعات بيانات مختلفة لتصنيف النص.نظهر باستخدام البيانات المعززة AEDA للتدريب، تظهر النماذج أداء فائقا مقارنة باستخدام البيانات المعززة إيدا في جميع مجموعات البيانات الخمسة.سيتم توفير شفرة المصدر لمزيد من الدراسة واستنساخ النتائج.
حقق نهج تكبير البيانات والضيقات الخصم مؤخرا نتائج واعدة في حل المشكلة المفرطة في العديد من مهام معالجة اللغة الطبيعية (NLP) بما في ذلك تصنيف المعنويات. ومع ذلك، فإن الدراسات الحالية التي تهدف إلى تحسين قدرة التعميم من خلال زيادة البيانات التدريبية مع أمثلة مرادفة أو إضافة ضوضاء عشوائية إلى Adgeddings Word، والتي لا يمكنها معالجة مشكلة الرابطة الزائفة. في هذا العمل، نقترح إطارا لتعزيز التعزيز نهاية إلى نهاية، والذي ينفذ بشكل مشترك توليد بيانات مضادة وتصنيف المعنويات المزدوجة. نهجنا لديه ثلاث خصائص: 1) يولد المولد تلقائيا جمل هائلة ومتنوعة؛ 2) يحتوي التمييز على مؤشر للمشاعر الجانبية الأصلية ومؤشر المعنويات الجانبية الناضجة، والذي يقوم بتقييم جودة العينة الناتجة بشكل مشترك ومساعدة المولد على توليد عينات مجفوف عالية الجودة أعلى جودة؛ 3) يتم استخدام التمييز مباشرة كقسم المعنويات النهائية دون الحاجة إلى بناء واحد إضافي. تظهر تجارب واسعة أن نهجنا يتفوق على خطوط خطوط خطوط تكبير البيانات قوية على العديد من مجموعات بيانات تصنيف المعفاة القياسية. يؤكد إجراء مزيد من التحليل بمزايا نهجنا في توليد عينات تدريب أكثر تنوعا وحل مشكلة الرابطة الزائفة في تصنيف المعنويات.
في هذه الورقة، نحقق في عوامل القيادة وراء التسلسل، وهي طريقة بسيطة ولكنها فعالة من البيانات للترجمة الآلية العصبية منخفضة الموارد.تشير تجاربنا إلى أن سياق الخطاب غير مرجح هو سبب تحسين تسلسل بلو من قبل حوالي +1 عبر أربع أزواج لغوية.بدلا من ذلك، نوضح أ ن التحسن يأتي من ثلاثة عوامل أخرى لا علاقة لها بالحبال: تنوع السياق، وتنوع الطول، و (إلى حد أقل) يتحول الموقف.
تعزز البيانات، التي تشير إلى معالجة المدخلات (على سبيل المثال، إضافة ضوضاء عشوائية، اخفاء أجزاء محددة) لتكبير مجموعة البيانات، تم اعتمادها على نطاق واسع في تعلم الجهاز.تعمل معظم تقنيات تكبير البيانات على إدخال واحد، مما يحد من تنوع كوربوس التدريب.في هذه الورقة، نقترح تقنية بسيطة ولكنها فعالة لتكبير البيانات للترجمة الآلية العصبية، mixseq، والتي تعمل على مدخلات متعددة وأهدافها المقابلة لها.على وجه التحديد، نقوم بشكل عشوائي بتحديد تسلسل مدخلتين بشكل عشوائي، وتسلسلها معا كإدخال أطول كما أن تسلسل المستحضرات المستهدفة المقابلة للهدف الموسع، ونماذج القطار على مجموعة البيانات المستعملة.تثبت التجارب في تسع مهام ترجمة آلية أن هذه الطريقة Asimple تعزز الخط الأساس عن طريق هامش غير تافهة.يمكن دمج طريقةنا مع طرق تكبير البيانات المستندة إلى الإدخال الفردي للحصول على مزيد من التحسينات.
بالنسبة للترجمة اليابانية إلى الإنجليزية، تشكل الضمائر الصفرية في اليابانية تحديا، نظرا لأن النموذج يحتاج إلى استنتاج النموذج وإنتاج الضمير المقابل في الجانب المستهدف من الجملة الإنجليزية.ومع ذلك، على الرغم من أن حل الضمائر الصفرية بالكامل غالبا ما ت حتاج إلى سياق خطاب، في بعض الحالات، فإن السياق المحلي في غضون جملة يمنح أدلة على استنتاج الضمير الصفر.في هذه الدراسة، نقترح طريقة تكبير البيانات التي توفر إشارات تدريبية إضافية لنموذج الترجمة لتعلم الارتباطات بين السياق المحلي وضمائر الصفر.نظهر أن الطريقة المقترحة تعمل بشكل كبير على تحسين دقة ترجمة صفر الضمير مع تجارب ترجمة الجهاز في مجال المحادثة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا