ترغب بنشر مسار تعليمي؟ اضغط هنا

تحقيقا نحو تسلسل خاص بالتفاضل العلاجي في إطار ميديري

An Investigation towards Differentially Private Sequence Tagging in a Federated Framework

251   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

لبناء التطبيقات المستندة إلى التعلم في الآلات من أجل المجالات الحساسة مثل الطبية والقانونية، وما إلى ذلك حيث يحتوي النص الرقمي على معلومات خاصة، فإن عدم الكشف عن هويت النص مطلوب للحفاظ على الخصوصية. تسلسل العلامات، على سبيل المثال كما فعلت في التعرف على الكيان المسمى (NER) يمكن أن تساعد في الكشف عن المعلومات الخاصة. ومع ذلك، لتدريب نماذج العلامات على التسلسل، مبلغ كافية من البيانات المسمى مطلوبة ولكن بالنسبة لمجالات حساسة الخصوصية، لا يمكن أيضا مشاركة هذه البيانات المسمى مباشرة. في هذه الورقة، يمكننا التحقيق في تطبيق إطار الحفاظ على الخصوصية لمهام علامات التسلسل، وتحديدا NER. وبالتالي، فإننا نحلل إطارا لمهمة NER، التي تتضمن مستويين لحماية الخصوصية. أولا، نقوم بنشر إطار تعليمي (FLF) الموحد حيث لا يتم مشاركة البيانات المسمى مع الخادم المركزي بالإضافة إلى عملاء الأقران. ثانيا، نطبق الخصوصية التفاضلية (DP) أثناء التدريب النماذج في كل مثيل عميل. في حين أن كلا من تدابير الخصوصية مناسبة للنماذج التي تدرك الخصوصية، فإن تركيبة النتائج في النماذج غير المستقرة. لمعرفةنا، هذه هي الدراسة الأولى من نوعها على نماذج علامات تسلسل الإدراك في الخصوصية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تركز معظم دراسات حماية الخصوصية للبيانات النصية على إزالة المعرفات الحساسة الصريحة. ومع ذلك، غالبا ما يتم إهمال أسلوب الكتابة الشخصية، كمؤشر قوي على التأليف،. أظهرت الدراسات الحديثة، مثل SYNTF، نتائج واعدة حول التعدين النصي للحفاظ على الخصوصية. ومع ذ لك، لا يمكن خلائطها المجهول فقط إخراج ناقلات المصطلحات الرقمية التي يصعب تفسير المستلمين. نقترح نموذج توليد نص جديد مع وجود آلية أسية ذات مجموعة من مجموعة إخفاء الهوية. من خلال زيادة المعلومات الدلالية من خلال وظيفة مكافأة تدريبية تعزز، يمكن أن يؤدي النموذج إلى إنشاء نص خاص بالتفاضل الذي يحتوي على بنية نحوية دلالية ومماثلة للنص الأصلي أثناء إزالة السمات الشخصية لأسلوب الكتابة. لا يفترض أي ملصقات مشروطة أو بيانات نصية متوازية للتدريب. نحن نقيم أداء النموذج المقترح في مراجعات نظر الأقران الواقعية ومجموعات بيانات مراجعة الصرخة. تشير النتيجة إلى أن نموذجنا يتفوق على أحدث حديثة من الحفظ الدلالي، ومضاءة التأليف، وتحول ستايلومتريك.
أظهرت الدراسات الحديثة أن مطالبات تحسين أداء نماذج اللغة الكبيرة المدربة مسبقا مسبقا لتصنيف نص قليل بالرصاص. ومع ذلك، فمن غير الواضح كيف يمكن نقل المعرفة المطالبة عبر مهام NLP مماثلة لغرض التعزيز المتبادل. بناء على embeddings الفوري المستمر، نقترح Tr ansprompt، إطار مطالب قابل للتحويل لتعلم قليل من الطلقات عبر مهام مماثلة. في Transprompt، نحن نوظف إجراءات اقتناء المعرفة متعددة المهام لتدريب المتعرية التي تلتقط المعرفة القابلة للتحويل المهمة. تم تصميم متزحاب تقنيات التغذيتين لجعلها أكثر ملاءمة وغير مرغوبة وغير متحيزة تجاه أي مهام. بعد ذلك، يمكن تكييف المتعلم التعريف مع المهام المستهدفة بدقة عالية. تبين تجارب واسعة أن Transprompt تفوقت على المهمة المفردة والاستصراد القوي عبر المهام عبر مهام NLP متعددة ومجموعات البيانات. نؤدي كذلك إلى أن المتعلم التلوي يمكن أن يحسن بشكل فعال الأداء على المهام غير المرئية مسبقا؛ وتتفوق TransPrompt أيضا على خطوط خطوط خطوط خطوط وطنية قوية عند التعلم مع مجموعات تدريب كاملة.
في هذا العمل، نعتبر مشكلة تصميم أطر تعليمية آمنة وفعالة (FLF) ل NLP.الحلول القائمة تحت هذه الأدبيات إما النظر في مجمع موثوق أو تتطلب بدائريات تشفير ثقيلة الوزن، مما يجعل الأداء يتدهور بشكل كبير.علاوة على ذلك، تعمل العديد من تصاميم FL FL Secure الموجو دة فقط بموجب الافتراض التقييدي الذي يمكن إسقاط أي منهما من بروتوكول التدريب.لمعالجة هذه المشكلات، نقترح SEFL، وهو إطار تعليمي آمن وفعال في الفيدروس (1) يلغي الحاجة إلى الكيانات الموثوق بها؛(2) يحقق دقة نموذجية مماثلة وحتى أفضل مقارنة بتصميمات فلوريدا الحالية؛(3) مرن للتسربين العميل.
تهدف مهمة إعادة كتابة الحوار إلى إعادة بناء أحدث كلام الحوار عن طريق نسخ المحتوى المفقود من سياق الحوار.حتى الآن، تعاني النماذج الحالية لهذه المهمة من مشكلة المتانة، أي أن يؤدي العروض بشكل كبير عند الاختبار على مجموعة مختلفة.نحن نتطلع إلى هذه القضية المتناقصة من خلال اقتراح نموذج يستند إلى تسلسل الرواية بحيث يتم تقليل مساحة البحث بشكل كبير، ومع ذلك، فإن جوهر هذه المهمة لا يزال مغطى جيدا.كمسألة مشتركة من طرازات العلامات في توليد النص، قد تفتقر مخرجات النموذج إلى الطلاقة.لتخفيف هذه المسألة، نفنق إشارة الخسارة من بلو أو GPT-2 بموجب إطار تعزيز.تظهر التجارب تحسينات هائلة في النموذج لدينا عبر الأنظمة الحالية التي من بين الفنون عند النقل إلى مجموعة بيانات أخرى.
بعد أداء متزايد لأنظمة الترجمة الآلية العصبية، تتم الآن دراسة نموذج استخدام البيانات المترجمة تلقائيا للتكيف عبر اللغات في العديد من المجالات المعمارية.لا تزال القدرة على شرح المشروع بدقة، ومع ذلك، فإن هناك مشكلة في مهام علامات التسلسل حيث يجب توقع ا لتوضيح بالمسافة الصحيحة.بالإضافة إلى ذلك، عندما تعني المهمة النص الناتج عن المستخدم صاخبة، يمكن أن تتأثر جودة الترجمة والترجمة التوضيحية.في هذه الورقة نقترحنا معالجة تسلسل تسلسل متعدد اللغات مع طريقة محاذاة سبين جديدة وتطبيقها على استخراج هدف الرأي من مراجعات العملاء.نظرا لأن توفير الاستدلال المناسبة، فإن البيانات المترجمة مع الإسقاط التلقائي التلقائي من المستوى التلقائي يمكن أن تسفر عن تحسينات التكيف عبر اللغات مقارنة بنقل الرصاص الصفر، وتعزيز البيانات مقارنة بناس خطي متعدد اللغات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا