تم تطبيق التعلم المتعاقد بنجاح على تعلم تمثيلات ناقلات النص.أظهرت الأبحاث السابقة أن تعلم التمثيلات عالية الجودة يستفيد من الخسارة المنتاقبة ذات الدفعة الحكيمة مع عدد كبير من السلبيات.في الممارسة العملية، يتم استخدام تقنية السلبية الداخلية، حيث سيتم أخذ إيجازات مثال على كل مثال في دفعة أو أمثلة دفعة أخرى كملقياتها، وتجنب ترميز السلبيات الإضافية.ومع ذلك، ومع ذلك، لا تزال هذه الشروط خسارة كل مثال على جميع الأمثلة الدفاعية وتتطلب تركيب الدفعة الكبيرة بأكملها في ذاكرة GPU.تقدم هذه الورقة تقنية مخزئة للتدرج التي تعود فيها العدوى بين الخسارة الناقضة والتشمس، وإزالة التبعية لتشفير الترميز إلى الوراء على طول البعد الدفوع.نتيجة لذلك، يمكن حساب التدرجات لمجموعة فرعية واحدة من الدفعة في وقت واحد، مما يؤدي إلى استخدام الذاكرة المستمر تقريبا.
Contrastive learning has been applied successfully to learn vector representations of text. Previous research demonstrated that learning high-quality representations benefits from batch-wise contrastive loss with a large number of negatives. In practice, the technique of in-batch negative is used, where for each example in a batch, other batch examples' positives will be taken as its negatives, avoiding encoding extra negatives. This, however, still conditions each example's loss on all batch examples and requires fitting the entire large batch into GPU memory. This paper introduces a gradient caching technique that decouples backpropagation between contrastive loss and the encoder, removing encoder backward pass data dependency along the batch dimension. As a result, gradients can be computed for one subset of the batch at a time, leading to almost constant memory usage.
المراجع المستخدمة
https://aclanthology.org/
أظهر تعلم التعزيز العميق إمكانات كبيرة في سياسات الحوار التدريبية. ومع ذلك، فإن أدائها المواتي يأتي بتكلفة العديد من جولات التفاعل. تعتمد معظم أساليب سياسة الحوار الحالية على نظام تعليمي واحد، في حين أن الدماغ البشري يحتوي على نظامين لتعلم وذاكرة متخ
الملخص نقدم نموذجا يستند إلى الذاكرة للتحليل الدلالي المعتمد على السياق.تركز النهج السابقة على تمكين وحدة فك الترميز لنسخ أو تعديل التحليل من الكلام السابق، على افتراض وجود تبعية بين الحواجز الحالية والسابقة.في هذا العمل، نقترح تمثيل معلومات سياقية ب
حققت نماذج تمثيل اللغة المدربة مؤخرا مثل بيرت وروبرتا نتائج مهمة في مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP)، ومع ذلك، فإنها تتطلب تكلفة حسابية عالية للغاية.يعد تعلم المناهج الدراسية (CL) أحد الحلول المحتملة لتخفيف هذه المشكلة.CL هي استراتيجي
في حين أن الأداء التنبئي لمحطات التبعية الإحصائية الحديثة يعتمد بشدة على توافر بيانات Treebank المشروح باهظة الثمن، إلا أن جميع التعليقات التعليقات التوضيحية تسهم على قدم المساواة في تدريب المحللين.في هذه الورقة، نحاول تقليل عدد الأمثلة المسماة اللاز
حققت شبكات الخصومة التوليدية (GANS) نجاحا كبيرا في توليف الصور، لكنه أثبت أنه من الصعب توليد لغة طبيعية. التحديات تنشأ من إشارات التعلم غير المنفصلة التي تم تمريرها من التمييز. وبعبارة أخرى، فإن إشارات التعلم السيئة تحد من قدرة التعلم لتوليد اللغات م