على الرغم من أن تحيز التعرض قد درس على نطاق واسع في بعض مهام NLP، إلا أنه يواجه تحدياته الفريدة في توليد استجابة الحوار، وسيناريو الجيل الممثل الأول إلى مختلف. في الحوار الإنساني الحقيقي، هناك العديد من الردود المناسبة لنفس السياق، ليس فقط مع تعبيرات
مختلفة، ولكن أيضا مع مواضيع مختلفة. لذلك، بسبب الفجوة الأكبر بكثير بين العديد من ردود الحقيقة الأرضية والاستجابة الاصطناعية التي تم إنشاؤها، فإن تحيز التعرض أكثر تحديا في مهمة توليد الحوار. ما هو أكثر من ذلك، حيث يشجع MLE النموذج على تعلم الكلمات الشائعة فقط بين ردود الحقيقة المختلفة ، ولكن يتجاهل الأجزاء المثيرة والمحددة، قد يؤدي التحيز التعريض إلى أن يؤدي المزيد إلى مشكلة توليد الاستجابة المشتركة، مثل لا أعرف "وهاها؟" في هذه الورقة، نقترح آلية تحول التكيف الرواية، والتي تتعلم العبور تلقائيا بين التعلم الأساسي للحقيقة وتولد التعلم فيما يتعلق بدرجة مطابقة على مستوى الكلمة، مثل تشابه جيب التمام. تظهر النتائج التجريبية على كل من مجموعة بيانات STC الصينية ومجموعة بيانات Reddit الإنجليزية، أن طريقتنا التكيفية تحقق تحسنا كبيرا من حيث التقييم القائم على المتري والتقييم البشري، مقارنة بنهج تحيز التعرض للدولة القصيرة. يظهر تحليل إضافي حول مهمة NMT أيضا أن طرازنا يمكن أن يحقق تحسنا كبيرا.
أسفرت صعود النماذج اللغوية المدربة مسبقا تقدما كبيرا في الغالبية العظمى من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، يمكن أن يكون النهج العام باتجاه الإجراء المسبق للتدريب بطبيعة الحال في بعض الحالات. بشكل خاص، قم بضبط نموذج لغة مدرب مسبقا في مجال ا
لمصدر ثم تطبيقه على نطاق مستهدف مختلف، يؤدي إلى انخفاض أداء حاد من المصنف النهائي للعديد من أزواج المجال المستهدف المصدر. علاوة على ذلك، في بعض مهام NLP، تختلف فئات الإخراج بشكل كبير بين المجالات، مما يجعل التكيف أكثر تحديا. هذا، على سبيل المثال، يحدث في مهمة استخراج الجانب، حيث قد تكون جوانب اهتمام الاستعراضات، على سبيل المثال، المطاعم أو الأجهزة الإلكترونية مختلفة للغاية. تقدم هذه الورقة مخططا جديدا للضبط في بيرت، والتي تهدف إلى معالجة التحديات المذكورة أعلاه. نحن نسمي هذا المخطط Dilbert: تعلم المجال الثابتة مع Bert، وتخصيصه لاستخراج الجانب في إعداد تكيف المجال غير المقترح. يسخر Dilbert المعلومات الفئوية لكل من المصدر والمجالات المستهدفة لتوجيه عملية التدريب المسبق نحو تمثيل ثنائي النطاق والفئة، مما يغلق الفجوة بين المجالات. نظهر أن Dilbert يعطي تحسينات كبيرة على خطوط الأساس الحديثة أثناء استخدام جزء صغير من البيانات غير المسبقة، لا سيما في إعدادات تكيف مجال أكثر تحديا.
نظرا لأن تكلفة وضع العلامات للوحدات المختلفة في أنظمة الحوار الموجهة نحو المهام (TOD) باهظ الثمن، فإن التحدي الرئيسي هو تدريب وحدات مختلفة بأقل قدر من البيانات المسمى. أظهرت نماذج اللغة المدربة مسبقا مؤخرا، نتائج واعدة واعدة لعدد قليل من التعلم في TO
D. في هذه الورقة، نرتند نهجا للتدريب الذاتي للاستفادة من بيانات الحوار غير المسبق الوفيرة لزيادة تحسين النماذج المدربة للدولة المدربة مسبقا في سيناريوهات تعليمية قليلة لأنظمة TOD. على وجه التحديد، نقترح نهجا للتدريب الذاتي أن تستلم البيانات الأكثر ثقة أكثر ثقة لتدريب نموذج طالب أقوى. علاوة على ذلك، يقترح تقنية تكبير نص جديد (GradaG) تدريب الطالب بشكل أفضل عن طريق استبدال الرموز غير الحاسمة باستخدام نموذج لغة ملثم. نقوم بإجراء تجارب مكثفة وتحليلات موجودة على أربع مهام المصب في TOD، بما في ذلك تصنيف النوايا وتتبع ولاية الحوار وتنبؤ قانون الحوار واختيار الاستجابة. توضح النتائج التجريبية أن نهج التدريب الذاتي المقترح باستمرار يحسن باستمرار النماذج المدربة مسبقا من أحدث (بيرت، TOD-BERT-BERT) عند توفر عدد صغير فقط من البيانات المسمى.
تفسير محتمل للأداء المثير للإعجاب في ما قبل التدريب اللغوي المصنوع (MLM) هو أن هذه النماذج تعلمت أن تمثل الهياكل النحوية السائدة في خطوط أنابيب NLP الكلاسيكية. في هذه الورقة، نقترح شرحا مختلفا: تنجح MLMS على مهام المصب بالكامل تقريبا بسبب قدرتها على
نموذج إحصاءات حدوث كلمة ترتيب أعلى. لإظهار ذلك، نقوم بتدريب MLMS مسبقا على الجمل مع ترتيب كلمة خلط عشوائيا، وإظهار أن هذه النماذج لا تزال تحقق دقة عالية بعد ضبطها على العديد من المهام المصب --- بما في ذلك المهام المصممة خصيصا لتكون صعبة للنماذج التي تتجاهل ترتيب الكلمات وبعد تؤدي نماذجنا بشكل جيد بشكل مدهش وفقا لبعض تحقيقات النحوية ذات الصلة، مما يشير إلى أوجه القصور المحتملة في كيفية اختبار تمثيلات للحصول على معلومات النحوية. بشكل عام، تظهر نتائجنا أن المعلومات التوزيعية البحتة تشرح إلى حد كبير نجاح ما قبل التدريب، وتؤكد أهمية إعانة مجموعات بيانات التقييم الصعبة التي تتطلب معرفة لغوية أعمق.
التدريب نماذج لغة كبيرة يمكن أن تستهلك كمية كبيرة من الطاقة.نفترض أن تكوين نموذج اللغة يؤثر على استهلاكها في مجال الطاقة، وأن هناك مجالا لتحسين استهلاك الطاقة في نماذج اللغة الكبيرة الحديثة.للتحقيق في هذه المطالبات، نقدم عامل استهلاك الطاقة في الوظيف
ة الموضوعية، واستكشاف مجموعة النماذج وتكوينات HyperParameter التي تؤثر على الطاقة.نحدد عوامل تكوين متعددة يمكن أن تقلل من استهلاك الطاقة أثناء التدريب على نموذج اللغة مع الحفاظ على جودة النموذج.
في العديد من مهام معالجة اللغة الطبيعية، تعد استرجاع مرور وإعادة التعريف بمرتبة المقطع الإجراءان الرئيسيان في إيجاد المعلومات ذات الصلة وتحديدها. بما أن كل من الإجراءين يسهمان في الأداء النهائي، فمن المهم تحسينها بشكل مشترك من أجل تحقيق تحسن متبادل.
في هذه الورقة، نقترح نهج تدريب مشترك رواية لاسترجاع المقطع الكثيف وإعادة إطلاق Reranking. مساهمة رئيسية هي أننا نقدم تقطير List Norwise الديناميكي، حيث نقوم بتصميم نهج تدريبي موحد للأسرار لكل من المسترد و Re-Ranker. أثناء التقطير الديناميكي، يمكن تحسين المسترد و Re-Ranker بشكل متكامل وفقا لمعلومات بعضهم البعض. نقترح أيضا استراتيجية تكبير البيانات الهجينة لبناء مثيلات تدريب متنوعة لنهج تدريب ListWise. تظهر تجارب واسعة فعالية نهجنا على كل من بيانات MSMARCO والأسئلة الطبيعية. يتوفر الكود الخاص بنا في https://github.com/paddlepaddle/rocketqa.
يتم تدريب نماذج NLP الحالية في الغالب من خلال خط أنابيب ما قبل المرحلة من مرحلتين. لقد أظهر العمل المسبق أن إدراج مرحلة ما قبل التدريب الوسيط، باستخدام سياسات إخفاء الإرشادية لنمذجة لغة ملثم (MLM)، يمكن أن تحسن بشكل كبير الأداء النهائي. ومع ذلك، لا ي
زال غير واضح (1) في أي حالات مثل هذا التدريب المسبق الوسيط مفيد، (2) سواء كانت الأهداف المهمة المصنوعة يدويا هي مهمة معينة، و (3) ما إذا كانت سياسة إخفاء مصممة لمهمة واحدة تعزيم خارج تلك المهمة. في هذه الورقة، نقوم بإجراء دراسة تجريبية واسعة النطاق للتحقيق في تأثير سياسات اخفاء مختلفة في التدريب المسبق المتوسط مع تسع مهام مختارة عبر ثلاث فئات. من الأهمية، نقدم طرق لأتمتة اكتشاف سياسات إخفاء الأمثل عبر الإشراف المباشر أو التعلم التلوي. نستنتج أن نجاح التدريب المسبق الوسيط يعتمد على Corpus ما قبل القطارات المناسبة، واختيار تنسيق الإخراج (أي، يمثل الموافق أو الجملة الكاملة)، وفهم واضح للدور الذي يلعبه الامتيازات والرهون البحرية لمهمة المصب. بالإضافة إلى ذلك، نجد أن سياسات الاخفاء المتعلميتنا تتفوق على مزعجة إخفاء الكيانات المسماة على Triviaqa، والسياسات المستفادة من مهمة يمكن أن تنتقل بشكل إيجابي إلى مهام أخرى في بعض الحالات، مما يدعو إلى البحث في المستقبل في هذا الاتجاه.
أظهرت نماذج SEQ2SEQ فعالية لا تصدق في مجموعة كبيرة ومتنوعة من التطبيقات. ومع ذلك، أظهرت الأبحاث الحديثة أن اللغة غير اللائقة في عينات التدريب وحالات الاختبار المصممة مصممة يمكن أن تحفز نماذج SEQ2SeQ لإخراج الألفاظ النابية. قد تؤذي هذه المخرجات قابلية
استخدام نماذج SEQ2SEQ وجعل المستخدمين النهائيين يشعرون بالإهانة. لمعالجة هذه المشكلة، نقترح إطار تدريبي مع متانة معتمدة للقضاء على الأسباب التي تؤدي إلى توليد الألفاظ النابية. يعزز إطار التدريب المقترح فقط قائمة قصيرة من أمثلة الألفاظ النابية لمنع نماذج SEQ2SEQ من توليد طيف أوسع من الألفاظ النابية. يتكون الإطار من مكون تدريبي للقضاء على النمط لقمع تأثير أنماط اللغة ذات الألفاظ النابية في مجموعة التدريب، وعنصر تدريب مقاوم للمثريحة لتوفير متانة معتمدة لنماذج SEQ2SEQ من تعبيرات النبأ المستقل عن عمد في عينات الاختبار. في التجارب، نفكر في مهام اثنين من الممثلين للتنصيب أن SEQ2SEQ يمكن تطبيقها على ذلك، أي نقل النمط وتوليد الحوار. تظهر النتائج التجريبية الواسعة أن إطار التدريب المقترح يمكن أن يمنع النماذج NLP بنجاح من توليد الألفاظ النابية.
في سياق استرجاع المرفق العصبي، ندرس ثلاث تقنيات واعدة: توليد البيانات الاصطناعية، أخذ العينات السلبية، والانصهار. نحن نحقق بشكل منهجي كيف تسهم هذه التقنيات في أداء نظام الاسترجاع وكيف تكمل بعضها البعض. نقترح إطارا متعدد المراحل يتكون من التدريب المسب
ق مع البيانات الاصطناعية، والضبط بشكل جيد مع البيانات المسمى، والأماينة السلبية في كلتا المرحلتين. نقوم بدراسة ست استراتيجيات أخذ العينات السلبية وتطبيقها على مرحلة ضبط الدقيقة، وكخادمة جديرة بالملاحظة، إلى البيانات الاصطناعية التي نستخدمها للتدريب المسبق. أيضا، نستكشف أساليب الانصهار التي تجمع بين السلبيات من استراتيجيات مختلفة. نقيم نظامنا باستخدام مهام استرجاع مرور اثنين للنطاق المفتوح واستخدام MS MARCO. تظهر تجاربنا أن زيادة التباين السلبي في كلتا المراحل فعالة لتحسين دقة استرجاع المرور، والأهم من ذلك، كما أنها تظهر أن توليد البيانات الاصطناعية والأماينة السلبية لها فوائد مضافة. علاوة على ذلك، فإن استخدام الانصهار من الأنواع المختلفة يسمح لنا بالوصول إلى الأداء الذي يحدد مستوى جديد من بين الفنادق في قسمين من المهام التي تقييمناها.
يمكن أن تساعد تقنيات توصيات الأخبار المستخدمين على منصات الأخبار للحصول على معلومات الأخبار المفضلة لديهم. تعتمد معظم طرق توصيات الأخبار الحالية على بيانات سلوك المستخدم المخزنة مركزيا لتدريب نماذج وخدمة المستخدمين. ومع ذلك، فإن بيانات المستخدم عادة
ما تكون حساسة خصوصية عالية، وتخزينها مركزيا في منصة الأخبار قد تثير مخاوف الخصوصية والمخاطر. في هذه الورقة، نقترح إطار توصية أخبار موحدة، والتي يمكن أن تستخدم بيانات المستخدم المخزنة محليا في عملاء المستخدمين لتدريب النماذج وخدمة المستخدمين بطريقة محافظة الخصوصية. بعد النموذج المستخدمة على نطاق واسع في أنظمة التوصية في العالم الحقيقي، يحتوي إطار عملنا على مرحلة للجيل الأخبار المرشح (I.E.، استدعاء) ومرحلة لترتيب الأخبار المرشح (أي، الترتيب). في مرحلة الاستدعاء، يتعلم كل عميل محليا تمثيلات فائدة متعددة من الأخبار النقر باهتمامات المستخدم النموذجية الشاملة. تم تحميل هذه التمثيلات إلى الخادم لاستدعاء أخبار المرشحين من تجمع أخبار كبير، والتي يتم توزيعها بشكل إضافي على عميل المستخدم في مرحلة الترتيب لعرض الأخبار المخصص. بالإضافة إلى ذلك، نقترح طريقة Decomposer-Decomposer-Decomposer مع ضوضاء الاضطرابات لتحسين حماية معلومات المستخدم الخاصة المشفرة في تمثيلات اهتمام المستخدم. علاوة على ذلك، فإننا نتدرب بشكل تعاوني في تذكر نماذج الترتيب والترتيب على البيانات اللامركزية في عدد كبير من عملاء المستخدمين بطريقة الحفاظ على الخصوصية. تبين التجارب في مجموعات بيانات الأخبار الحقيقية في العالم أن طريقتنا يمكن أن تفوق أساليب خط الأساس وتحمي خصوصية المستخدم بشكل فعال.