على الرغم من أن الأبحاث حول Word Advedings قد حققت تقدما كبيرا في السنوات الأخيرة، فإن العديد من المهام في معالجة اللغة الطبيعية موجودة على مستوى الجملة. وبالتالي، من الضروري تعلم تضمين الجملة. في الآونة الأخيرة، يقترح عقوبة برت (SBERT) تعلم التشريح على مستوى الجملة، ويستخدم المنتج الداخلي (أو، التشابه الجيبكي) لحساب التشابه الدلالي بين الجمل. ومع ذلك، لا يمكن لهذا القياس وصف الهياكل الدلالية بين الجمل. السبب هو أن الجمل قد تكمن في مشعب في الفضاء المحيط بدلا من توزيع الفضاء الإقليدي. وبالتالي، فإن التشابه التجميل لا يمكن أن تقريب المسافات على المنوع. لمعالجة المشكلة الشديدة، نقترح طريقة تضمين عقوبة جديدة تسمى برت حكم مع الحفاظ على محلية (SBERT-LP)، والتي تكتشف الجملة الفرعية من الفضاء العالي الأبعاد ويمنح مجموعة فرعية تمثيل جملة مدمجة من قبل الهياكل الهندسية المحفوظة محليا من الجمل وبعد قارننا Sbert-LP مع العديد من نهج تضمين الجملة الحالية من ثلاثة وجهات نظر: تشابه الجملة، تصنيف الجملة وتجميع الجملة. تظهر النتائج التجريبية ودراسات الحالة أن طريقتنا ترميز الجمل بشكل أفضل بمعنى الهياكل الدلالية.
Although researches on word embeddings have made great progress in recent years, many tasks in natural language processing are on the sentence level. Thus, it is essential to learn sentence embeddings. Recently, Sentence BERT (SBERT) is proposed to learn embeddings on the sentence level, and it uses the inner product (or, cosine similarity) to compute semantic similarity between sentences. However, this measurement cannot well describe the semantic structures among sentences. The reason is that sentences may lie on a manifold in the ambient space rather than distribute in an Euclidean space. Thus, cosine similarity cannot approximate distances on the manifold. To tackle the severe problem, we propose a novel sentence embedding method called Sentence BERT with Locality Preserving (SBERT-LP), which discovers the sentence submanifold from a high-dimensional space and yields a compact sentence representation subspace by locally preserving geometric structures of sentences. We compare the SBERT-LP with several existing sentence embedding approaches from three perspectives: sentence similarity, sentence classification and sentence clustering. Experimental results and case studies demonstrate that our method encodes sentences better in the sense of semantic structures.
المراجع المستخدمة
https://aclanthology.org/
اقترح مخطط التعلم الخاص Texthide مؤخرا لحماية البيانات النصية الخاصة أثناء مرحلة التدريب عبر ترميز المثيل المزعوم.نقترح هجوم إعادة الإعمار الجديد لكسر Texthide من خلال استعادة بيانات التدريب الخاص، وبالتالي تكشف النقاب عن مخاطر الخصوصية على ترميز الم
اكتسبت توصية الأخبار التلقائية الكثير من الاهتمام من المجتمع الأكاديمي والصناعة. تكشف الدراسات الحديثة أن مفتاح هذه المهمة يكمن في تعلم التمثيل الفعال في كل من الأخبار والمستخدمين. تعمل الأعمال الحالية عادة عنوان الأخبار والمحتوى بشكل منفصل مع إهمال
نماذج المحولات هي التقليب equivariant.لتزويد الطلب واكتب معلومات الرموز المميزة والإدخال، عادة ما تتم إضافتها إلى المدخلات.تعمل الأعمال الأخيرة الاختلافات المقترحة من الترميزات الموضعية مع ترميزات الموضع النسبي تحقيق أداء أفضل.يوضح تحليلنا أن المكسب
تصف هذه الورقة N-XKT (الترميز العصبي بناء على نقل المعرفة التوضيحية)، وهي طريقة جديدة للتحويل التلقائي للمعرفة التوضيحية من خلال آليات الترميز العصبي.نوضح أن N-XKT قادر على تحسين الدقة والتعميم بشأن الإجابة على سؤال العلوم (QA).على وجه التحديد، من خل
لقد تم الاعتراف على نطاق واسع بأن معلومات بناء الجملة يمكن أن تساعد في أنظمة الترجمة الآلية العصبية في نهاية إلى نهادة لتحقيق ترجمة أفضل. من أجل دمج معلومات التبعية في NMT المحول، النهج الحالية إما استغلال العلاقات المعتمدة في الرأس المحلية، تجاهل جي