ترغب بنشر مسار تعليمي؟ اضغط هنا

UNI-FEDREC: إطار توصية أخبار محافظة الخصوصية الموحدة للتدريب النموذجي والخدمة عبر الإنترنت

Uni-FedRec: A Unified Privacy-Preserving News Recommendation Framework for Model Training and Online Serving

366   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن أن تساعد تقنيات توصيات الأخبار المستخدمين على منصات الأخبار للحصول على معلومات الأخبار المفضلة لديهم. تعتمد معظم طرق توصيات الأخبار الحالية على بيانات سلوك المستخدم المخزنة مركزيا لتدريب نماذج وخدمة المستخدمين. ومع ذلك، فإن بيانات المستخدم عادة ما تكون حساسة خصوصية عالية، وتخزينها مركزيا في منصة الأخبار قد تثير مخاوف الخصوصية والمخاطر. في هذه الورقة، نقترح إطار توصية أخبار موحدة، والتي يمكن أن تستخدم بيانات المستخدم المخزنة محليا في عملاء المستخدمين لتدريب النماذج وخدمة المستخدمين بطريقة محافظة الخصوصية. بعد النموذج المستخدمة على نطاق واسع في أنظمة التوصية في العالم الحقيقي، يحتوي إطار عملنا على مرحلة للجيل الأخبار المرشح (I.E.، استدعاء) ومرحلة لترتيب الأخبار المرشح (أي، الترتيب). في مرحلة الاستدعاء، يتعلم كل عميل محليا تمثيلات فائدة متعددة من الأخبار النقر باهتمامات المستخدم النموذجية الشاملة. تم تحميل هذه التمثيلات إلى الخادم لاستدعاء أخبار المرشحين من تجمع أخبار كبير، والتي يتم توزيعها بشكل إضافي على عميل المستخدم في مرحلة الترتيب لعرض الأخبار المخصص. بالإضافة إلى ذلك، نقترح طريقة Decomposer-Decomposer-Decomposer مع ضوضاء الاضطرابات لتحسين حماية معلومات المستخدم الخاصة المشفرة في تمثيلات اهتمام المستخدم. علاوة على ذلك، فإننا نتدرب بشكل تعاوني في تذكر نماذج الترتيب والترتيب على البيانات اللامركزية في عدد كبير من عملاء المستخدمين بطريقة الحفاظ على الخصوصية. تبين التجارب في مجموعات بيانات الأخبار الحقيقية في العالم أن طريقتنا يمكن أن تفوق أساليب خط الأساس وتحمي خصوصية المستخدم بشكل فعال.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

توصية الأخبار أمر بالغ الأهمية للوصول إلى الأخبار المخصصة. تعتمد أساليب توصيات الأخبار الموجودة على معظم طرق التخزين المركزي للأخبار التاريخية للمستخدمين النقر فوق بيانات السلوك، والتي قد تؤدي إلى مخاوف الخصوصية والمخاطر. يعد التعلم الفيدرالي إطارا ل لحفاظ على الخصوصية لعملاء متعددين نماذج قطار تعاوني دون مشاركة بياناتهم الخاصة. ومع ذلك، فإن حساب التكاليف والاتصال في تعلم العديد من نماذج توصية الأخبار الموجودة بطريقة غير مقبولة غير مقبولة لعملاء المستخدمين. في هذه الورقة، نقترح إطارا تعليميا فائضا فعالا لتوصية الأخبار التي تحافظ على الخصوصية. بدلا من تدريب وتوصيل النموذج بأكمله، نقوم بتحلل نموذج توصية الأخبار إلى نموذج أخبار كبير يحتفظ به في الخادم ونموذج مستخدم إضاءة الوزن مشتركا على كل من الخادم والعملاء، حيث يتم توصيل تمثيل الأخبار ونموذج المستخدم بين الخادم والعملاء وبعد وبشكل أكثر تحديدا، يطلب العملاء طراز المستخدم والتمثيلات الأخبار من الخادم، وإرسال تدرجاتهم المحسوبة محليا إلى الخادم للتجميع. يقوم الخادم بتحديث نموذج المستخدم العالمي الخاص به مع التدرجات المجمعة، ويقوم كذلك بتحديث نموذج الأخبار الخاص به لاستنتاج تمثيلات أخبار محدثة. نظرا لأن التدرجات المحلية قد تحتوي على معلومات خاصة، فإننا نقترح طريقة تجميع آمنة للتدرجات الإجمالية في طريقة الحفاظ على الخصوصية. تظهر التجارب في مجموعات بيانات عالمية حقيقية أن طريقتنا يمكن أن تقلل من حساب حساب الاتصالات والاتصال على العملاء مع الحفاظ على أداء نموذج واعد.
غالبا ما يتم استخدام مخصصات Dirichlet الكامنة (LDA)، وهو نموذج موضوع يستخدم على نطاق واسع كأداة أساسية لتحليل النص في التطبيقات المختلفة. ومع ذلك، فإن عملية التدريب لنموذج LDA عادة ما تتطلب بيانات كوربوس نصية ضخمة. من ناحية، قد تعرض هذه البيانات الضخ مة معلومات خاصة في بيانات التدريب، وبالتالي تكبد شواغل الخصوصية الهامة. من ناحية أخرى، قد تتأثر كفاءة التدريب لنموذج LDA، لأن تدريب LDA يحتاج غالبا إلى التعامل مع بيانات كوربوس النص الضخمة. لمعالجة مشكلات الخصوصية في التدريب النموذجي LDA، جمعت بعض الأعمال الحديثة خوارزميات تدريب LDA التي تستند إلى أخذ عينات Gibbs المنهارة (CGS) مع خصوصية تفاضلية. ومع ذلك، فإن هذه الأعمال عادة ما يكون لها ميزانية خصوصية تراكمية عالية بسبب التكرارات الشاسعة في CGS. علاوة على ذلك، فإن هذه الأعمال لديها دائما كفاءة منخفضة بسبب التعامل مع بيانات Corpus النص الضخمة. لتحسين ضمان الخصوصية والكفاءة، نجمع بين طريقة فرعية مع CGS واقتراح خوارزمية تدريب LDA الجديدة مع خصوصية تفاضلية، فرعية LDA. نجد أن التعيين في CGS يحسن بشكل طبيعي الكفاءة أثناء تضخيم الخصوصية. نقترح أداة متري جديدة، وكفاءة - وظيفة الخصوصية، لتقييم تحسينات ضمان الخصوصية والكفاءة. استنادا إلى طريقة فرعية تقليدية، نقترح طريقة عمل قضائية على التكيف لتحسين فائدة النموذج التي تنتجها فرعية LDA عندما تكون النسبة الفرعية صغيرة. نحن نقدم تحليلا شاملا ل Sub-LDA، وتقييم نتائج التجربة تحسيناتها وضمان خصوصيتها.
تعتمد نماذج التعلم العميق الحديثة لمعالجة اللغة الطبيعية بشكل كبير على كميات كبيرة من النصوص المشروح.ومع ذلك، قد يكون الحصول على مثل هذه النصوص صعبة عندما تحتوي على معلومات شخصية أو سرية، على سبيل المثال، في المجالات الصحية أو القانونية.في هذا العمل، نقترح طريقة لإلغاء تحديد المستندات النصية النموذج الحرة من خلال تقسيم البيانات الحساسة بعناية فيها.نظهر أن طريقتنا تحافظ على الأداة المساعدة للبيانات لتصنيف النصوص ووضع التسلسل والتسجيل الإجابة على المهام.
في هذا العمل، نقدم إطارا نظريا للمعلومات يقوم بتصوير نموذج اللغة عبر اللغات قبل تعظيم المعلومات المتبادلة بين النصوص متعددة اللغات متعددة التحبيب.العرض الموحد يساعدنا على فهم الأساليب الموجودة بشكل أفضل لتعلم تمثيلات عبر اللغات.الأهم من ذلك، مستوحاة من الإطار، نقترح مهمة جديدة قبل التدريب على التعلم المتعاقل.على وجه التحديد، نعتبر زوج جملة ثنائية اللغة كأراضتين لنفس المعنى وتشجيع تمثيلاتها المشفرة أكثر مماثلة من الأمثلة السلبية.من خلال الاستفادة من كل من Corpora Monolingual والمتوازي، فإننا ندرب بشكل مشترك مهام ذريعة التحسين القدرة على التحويل المتبادلة للنماذج المدربة مسبقا.النتائج التجريبية على العديد من المعايير تظهر أن نهجنا يحقق أداء أفضل بكثير.تتوفر الكود والنماذج المدربة مسبقا في https://aka.ms/infoxlm.
بالنسبة للمبرمجين، تعلم استخدام واجهات برمجة التطبيقات (واجهات برمجة التطبيق) لمكتبة البرمجيات أمرا مهما للغاية. يمكن لأدوات توصية API أن تساعد المطورين في استخدام واجهات برمجة التطبيقات من خلال التوصية باستخدام واجهات برمجة التطبيقات التي سيتم استخد امها بعد ذلك بالنظر إلى واجهات برمجة التطبيقات التي تمت كتابتها. تقليديا، يتم تطبيق نماذج اللغة مثل غرام N على توصية API. ومع ذلك، نظرا لأن مكتبات البرمجيات تبقي المتغيرات والمكتبات الجديدة تبقي الناشئة، فإن واجهات برمجة التطبيقات الجديدة شائعة. يمكن رؤية واجهات برمجة التطبيقات الجديدة هذه مثل كلمات OOV (خارج المفردات) ولا يمكن التعامل معها جيدا من خلال نهج توصية API الحالية بسبب عدم وجود بيانات تدريبية. في هذه الورقة، نقترح ApireCX، أول نهج توصية API للمكتبات، والذي يستخدم BPE لتقسيم كل مكالمة API في كل تسلسل API وقم بتدريب نموذج اللغة GPT. ثم توصي باختصارها عن طريق ضبط النموذج المدرب مسبقا. يمكن ل APIRECX ترحيل معرفة المكتبات الموجودة إلى مكتبة جديدة، ويمكن أن توصي بايس واجهات برمجة التطبيقات التي تعتبرها OOV مسبقا. نقوم بتقييم ApireCX على ست مكتبات وتؤكد النتائج فعاليتها من خلال مقارنة مع نهج توصية API نموذجية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا