تم تطبيق التعلم المتعاقد بنجاح على تعلم تمثيلات ناقلات النص.أظهرت الأبحاث السابقة أن تعلم التمثيلات عالية الجودة يستفيد من الخسارة المنتاقبة ذات الدفعة الحكيمة مع عدد كبير من السلبيات.في الممارسة العملية، يتم استخدام تقنية السلبية الداخلية، حيث سيتم أخذ إيجازات مثال على كل مثال في دفعة أو أمثلة دفعة أخرى كملقياتها، وتجنب ترميز السلبيات الإضافية.ومع ذلك، ومع ذلك، لا تزال هذه الشروط خسارة كل مثال على جميع الأمثلة الدفاعية وتتطلب تركيب الدفعة الكبيرة بأكملها في ذاكرة GPU.تقدم هذه الورقة تقنية مخزئة للتدرج التي تعود فيها العدوى بين الخسارة الناقضة والتشمس، وإزالة التبعية لتشفير الترميز إلى الوراء على طول البعد الدفوع.نتيجة لذلك، يمكن حساب التدرجات لمجموعة فرعية واحدة من الدفعة في وقت واحد، مما يؤدي إلى استخدام الذاكرة المستمر تقريبا.
Contrastive learning has been applied successfully to learn vector representations of text. Previous research demonstrated that learning high-quality representations benefits from batch-wise contrastive loss with a large number of negatives. In practice, the technique of in-batch negative is used, where for each example in a batch, other batch examples' positives will be taken as its negatives, avoiding encoding extra negatives. This, however, still conditions each example's loss on all batch examples and requires fitting the entire large batch into GPU memory. This paper introduces a gradient caching technique that decouples backpropagation between contrastive loss and the encoder, removing encoder backward pass data dependency along the batch dimension. As a result, gradients can be computed for one subset of the batch at a time, leading to almost constant memory usage.
References used
https://aclanthology.org/
Deep reinforcement learning has shown great potential in training dialogue policies. However, its favorable performance comes at the cost of many rounds of interaction. Most of the existing dialogue policy methods rely on a single learning system, wh
Abstract We present a memory-based model for context- dependent semantic parsing. Previous approaches focus on enabling the decoder to copy or modify the parse from the previous utterance, assuming there is a dependency between the current and previo
Recently, pre-trained language representation models such as BERT and RoBERTa have achieved significant results in a wide range of natural language processing (NLP) tasks, however, it requires extremely high computational cost. Curriculum Learning (C
While the predictive performance of modern statistical dependency parsers relies heavily on the availability of expensive expert-annotated treebank data, not all annotations contribute equally to the training of the parsers. In this paper, we attempt
Generative Adversarial Networks (GANs) have achieved great success in image synthesis, but have proven to be difficult to generate natural language. Challenges arise from the uninformative learning signals passed from the discriminator. In other word