في استخراج العلاقة، يستخدم الإشراف البعيد على نطاق واسع لتسمية مجموعة بيانات تدريبية واسعة النطاق عن طريق محاذاة قاعدة المعرفة بالنص غير منظم. افترضت أن معظم الدراسات الموجودة في هذا المجال هناك قدر كبير من النص المركزي غير منظم. ومع ذلك، في الممارسة
العملية، يتم توزيع النصوص عادة على منصات مختلفة ولا يمكن أن تكون مركزية بسبب قيود الخصوصية. لذلك، من المفيد التحقيق في الإشراف البعيد في نموذج التعلم الفيدرالي، الذي يقوم بتشغيل النموذج من الحاجة إلى الوصول المباشر إلى النصوص الخام. ومع ذلك، يصبح التغلب على ضجيج الملصق للإشراف البعيد أكثر صعوبة في الإعدادات الفيدرالية، لأن النصوص التي تحتوي على نفس زوج الكيان مبعثر حول منصات مختلفة. في هذه الورقة، نقترح إطار دنيوي مخصص لإقناع الضوضاء التسمية في الإعدادات الفيدرالية. مفتاح هذا الإطار هو طريقة مستندة في حالة التعلم التي تعتمد على التعليم غير قادر على تحديد جمل موثوقة عبر التعاون عبر النظام الأساسي. تجارب مختلفة على بيانات DataSet New York Times و Mirna Gene Lination DataSet تثبت فعالية الطريقة المقترحة.
يقلل اعتراف الكيان المسمى بشكل مسمى (DS-NER) بكفاءة تكاليف العمالة بل في الوقت نفسه يعاني من ضوضاء الملصقات بسبب الافتراض القوي للإشراف البعيد.عادة ما تشتمل الحالات المسماة بشكل خاطئ على أرقام التعليقات التوضيحية غير المكتملة وغير الدقيقة، في حين أن
معظم أعمال Denoising السابقة تشعر بالقلق فقط بنوع من الضوضاء وتفشل في استكشاف معلومات مفيدة بالكامل في مجموعة التدريب.لمعالجة هذه المشكلة، نقترح نماذج تعليمية قوية تسمى التعلم التعاوني الذاتي التعاونية (SCDL)، والتي تدرب بشاشات اثنين من شبكات الطلاب المعلمين بطريقة منفعة متبادلة لتنفيذ مصفاة التسمية الصاخبة بشكل متكرر.تم تصميم كل شبكة لاستغلال ملصقات موثوقة عبر Denoising الذاتي، ويتواصل شبكتان مع بعضهما البعض لاستكشاف التعليقات التوضيحية غير الموثوق بها من خلال تنظيم تعاوني.نتائج تجريبية واسعة النطاق على خمسة مجموعات بيانات حقيقية عالمية توضح أن SCDL متفوقة على طرق DS-NER DENOSION حول DS-NER.
النماذج الخاضعة للإشراف المستمرة تحظى بشعبية كبيرة بالنسبة لاستخراج العلاقة لأنه يمكننا الحصول على كمية كبيرة من البيانات التدريبية باستخدام طريقة الإشراف البعيدة دون شرح بشري.في الإشراف البعيد، تعتبر الجملة بمثابة مصدر Tuple إذا كانت الجملة تحتوي عل
ى كيانا من Tuple.ومع ذلك، فإن هذه الحالة متساهلة للغاية ولا يضمن وجود معلومات خاصة بالعلاقة ذات الصلة في الجملة.على هذا النحو، تحتوي بيانات التدريب الإشراف على الكثير من الضوضاء التي تؤثر سلبا على أداء النماذج.في هذه الورقة، نقترح آلية تصفية الفرقة الذاتية لتصفية العينات الصاخبة أثناء عملية التدريب.نقيم إطار عملنا المقترح في مجموعة بيانات نيويورك تايمز التي تم الحصول عليها عبر إشراف بعيد.تجاربنا مع العديد من نماذج استخراج العلاقات العصبية متعددة الحديثة تظهر أن آلية التصفية المقترحة تعمل على تحسين متانة النماذج ويزيد من درجات F1 الخاصة بهم.
نقترح نظاما عمليا للناسب الفوري للإجابة على صفحات المنتج لخدمات التجارة الإلكترونية، حيث يتم استرداد أزواج كل مستخدم في كل مستخدم، ويتم استرجاع أزواج إجابة سؤال المجتمع (CQA) ذات الصلة. تختلف استعلامات المستخدم وأزواج CQA بشكل كبير في خصائص اللغة الت
ي تتخصصها التعلم صعبة. يتعلم نموذجنا القائم على المحولات لدينا وظيفة ذات أهمية قوية من خلال التعلم بالاشتراك في التمثيلات النحوية والدلية الموحدة دون الحاجة إلى بيانات المسمى البشرية. يتم تحقيق ذلك من خلال الإشراف المستمر على النموذج لدينا عن طريق تقطير من تنبؤات نظام مطابق سنوي على استعلامات المستخدم والتدريب في وقت واحد مع أزواج CQA. يساعد التدريب مع أزواج CQA النموذجية في تعلم النموذج الدلالي الوهمي في ضمان الجودة والرقابة البعيدة التي تتيح تعلم ميزات النحوية وكذلك الدفراء الدقيقة من لغة الاستعلام عن المستخدم. بالإضافة إلى ذلك، يقوم نموذجنا بتشفير الاستعلامات والردود المرشحة بالسماح بشكل مستقل إلى تدوين تضمين المرشح غير المتصل بالإنترنت مما يقلل من الحاجة إلى تنفيذ نموذج محول في الوقت الفعلي. وبالتالي، فإن إطار عملائنا قادر على التوسع إلى حركة مرور QA التجارة الإلكترونية الكبيرة. يوضح التقييم المكثف على استعلامات المستخدم أن إطارنا يتفوق بشكل كبير على كل من خطوط الأساس المنتجة والدلية في وضع عدم الاتصال بالإضافة إلى إعدادات A / B على نطاق واسع لخدمة التجارة الإلكترونية الشعبية على نطاق واسع.