هناك نوعان مناهضين لتسجيل الجملة الزوجية: التشفير المكونات، مما أداء الانتباه الكامل عبر زوج الإدخال، والترميزات الثنائية، والتي تعريش كل مدخلات بشكل مستقل إلى مساحة متجهية كثيفة. في حين أن التشفير المتقاطعة غالبا ما يحقق أداء أعلى، فهي بطيئة للغاية بالنسبة للعديد من حالات الاستخدام العملية. تتطلب الزيادة الثنائية، من ناحية أخرى، بيانات تدريبية كبيرة وصقل جيد على المهمة المستهدفة لتحقيق الأداء التنافسي. نقدم استراتيجية بسيطة لكنها فعالة تكافؤية تدعى Sbert المعزز، حيث نستخدم المشفرين في التسمية مجموعة أكبر من أزواج المدخلات لزيادة بيانات التدريب الخاصة ببيانات التدريب. نظرا لأنه في هذه العملية، فإن اختيار أزواج الجملة غير تافهة وحاسمة لنجاح الطريقة. نقيم نهجنا على مهام متعددة (داخل المجال) وكذلك في مهمة تكيف مجال المجال. يحقق Sbert المعزز تحصين يصل إلى 6 نقاط مقابل المجال وعلى ما يصل إلى 37 نقطة لمهام تكيف المجال مقارنة بالأداء الأصلي ثنائي التشفير.
There are two approaches for pairwise sentence scoring: Cross-encoders, which perform full-attention over the input pair, and Bi-encoders, which map each input independently to a dense vector space. While cross-encoders often achieve higher performance, they are too slow for many practical use cases. Bi-encoders, on the other hand, require substantial training data and fine-tuning over the target task to achieve competitive performance. We present a simple yet efficient data augmentation strategy called Augmented SBERT, where we use the cross-encoder to label a larger set of input pairs to augment the training data for the bi-encoder. We show that, in this process, selecting the sentence pairs is non-trivial and crucial for the success of the method. We evaluate our approach on multiple tasks (in-domain) as well as on a domain adaptation task. Augmented SBERT achieves an improvement of up to 6 points for in-domain and of up to 37 points for domain adaptation tasks compared to the original bi-encoder performance.
References used
https://aclanthology.org/
Recently, neural machine translation is widely used for its high translation accuracy, but it is also known to show poor performance at long sentence translation. Besides, this tendency appears prominently for low resource languages. We assume that t
We propose a data augmentation method for neural machine translation. It works by interpreting language models and phrasal alignment causally. Specifically, it creates augmented parallel translation corpora by generating (path-specific) counterfactua
Sign language translation (SLT) is often decomposed into video-to-gloss recognition and gloss to-text translation, where a gloss is a sequence of transcribed spoken-language words in the order in which they are signed. We focus here on gloss-to-text
Data augmentation, which refers to manipulating the inputs (e.g., adding random noise,masking specific parts) to enlarge the dataset,has been widely adopted in machine learning. Most data augmentation techniques operate on a single input, which limit
Despite its proven efficiency in other fields, data augmentation is less popular in the context of natural language processing (NLP) due to its complexity and limited results. A recent study (Longpre et al., 2020) showed for example that task-agnosti