ترغب بنشر مسار تعليمي؟ اضغط هنا

إسناد التأليف هو مهمة تعيين وثيقة غير معروفة إلى مؤلف من مجموعة من المرشحين.في الماضي، تستخدم الدراسات في هذا المجال مجموعات بيانات التقييم المختلفة لإظهار فعالية الخطوات والميزات والنماذج مسبقا.ومع ذلك، فإن جزء صغير فقط من الأعمال يستخدم أكثر من مجم وعة بيانات لإثبات المطالبات.في هذه الورقة، نقدم مجموعة من مجموعات بيانات إيسبت الأمعاء المتنوعة للغاية، والتي تعميم نتائج التقييم بشكل أفضل من أبحاث إسناد التأليف.علاوة على ذلك، نقوم بتنفيذ مجموعة واسعة من نماذج تعلم الآلات المستخدمة سابقا وإظهار أن العديد من النهج تظهر عروضا مختلفة بشكل كبير عند تطبيقها على مجموعات بيانات مختلفة.ندرج نماذج لغة مدربة مسبقا، لأول مرة اختبرها في هذا المجال بطريقة منهجية.أخيرا، نقترح مجموعة من الدرجات المجمعة لتقييم جوانب مختلفة من جمع البيانات.
تلقت تلخيص محادثة مبادرة إيلاء اهتمام متزايد في حين تعتمد معظم نماذج تلخيص حديثة حديثة من بين الفنون بشدة على ملخصات المشروح بين الإنسان. للحد من الاعتماد على الملخصات المسمى، في هذا العمل، نقدم مجموعة بسيطة ولكنها فعالة من طرق تكبير بيانات المحادثة (CODA) لعلمة محادثة إفراطية شبه إشراف، مثل تبادل / حذف عشوائي لإضطرب علاقات الخطاب داخل المحادثات، والحوار - الإدراج الموجه المرشد بمقاطعة تطوير المحادثات، والاستبدال القائم على الجيل الشرطي لاستبدال الكلام مع صياغةهم الناتجة بناء على سياق المحادثة. لمزيد من الاستفادة من المحادثات غير المستمرة، نجمع بين Coda مع التدريب الذاتي الصاخب على مرحلتين حيث نقوم أولا بتدريب نموذج التلخيص مسبقا على المحادثات غير المسبقة مع ملخصات زائفة، ثم ضبطها على المحادثات المسمى. توضح التجارب التي أجريت في مجموعات بيانات تلخيص المحادثة الأخيرة فعالية أساليبنا على العديد من خطوط خطوط تكبير البيانات في البيانات.
لقد أظهر العمل الحديث أن نماذج اللغة المحظورة غير المؤمنة تعلمت تمثيل مفاهيم تقلص البيانات من تباين اللغة والتي يمكن استخدامها لتحديد بيانات التدريب المستهدف بالمجال. تتوفر تسميات أنواع DataSet في كثير من الأحيان، ومع ذلك لا تزال غير مستكشفة إلى حد ك بير في الإعدادات عبر اللغات. نستفيد هذا النوع من البيانات الوصفية باعتباره إشارة إشرافية ضعيفة لتحديد البيانات المستهدف في تحليل التبعية الصفرية. على وجه التحديد، نقوم بتعيين معلومات النوع من Treebank-Level لمستوى الجملة على مستوى الجملة الدقيقة، بهدف تضخيم المعلومات المخزنة ضمنيا في تمثيلات سياقية غير مدفوعة غير المدعومة. نوضح أن هذا النوع قابل للاسترداد من المدينات السياقية متعددة اللغات وأنه يوفر إشارة فعالة لتحديد بيانات التدريب في السيناريوهات عبر اللغات والصفرية. بالنسبة إلى 12 لغة Low-Resource Treebanks، ستة منها اختبار فقط، فإن أساليبنا الخاصة النوعية تفوقها بشكل كبير خطوط الأساس التنافسية وكذلك الأساليب القائمة على التضمين الحديثة لتحديد البيانات. علاوة على ذلك، يوفر اختيار البيانات المستندة إلى النوع من النوعين نتائج جديدة من الفنادق الجديدة لمدة ثلاثة من هذه اللغات المستهدفة.
تعد استخراج أجهزة القياسات الرائعة التي تلخص النقاط الرئيسية الوثيقة مهمة أساسية في معالجة اللغة الطبيعية.الأساليب الخاضعة للإشراف لاستخراج الصوت (KPE) تم تطويرها إلى حد كبير بناء على افتراض أن البيانات التدريبية مشروحة بالكامل.ومع ذلك، نظرا لصعوبة ع بوات مفاتيح الصوت، تعاني نماذج KPE بشدة من مشكلة غير مشروعة غير كاملة في العديد من السيناريوهات.تحقيقا لهذه الغاية، نقترح طريقة تدريب أكثر قوة تتعلم التخفيف من سوء الخضوع الذي جلبه خطوط الرعاية القصوى غير المسبقة.نقدم أخذ العينات السلبية لضبط فقدان التدريب، وإجراء تجارب تحت سيناريوهات مختلفة.تظهر الدراسات التجريبية حول مجموعات البيانات الاصطناعية ومجموعات البيانات المفتوحة أن طرازنا قوي للمشكلة المشروحة غير المكتملة وتجاوز الأساس المسبق.تجارب واسعة على خمسة مجموعات بيانات مجال علمي من المقاييس المختلفة توضح أن طرازنا تنافس مع الطريقة التي من بين الفن.
أدى الاستخدام المتزايد لمواقع وسائل التواصل الاجتماعي في بلدان مثل الهند إلى مجلدات كبيرة من البيانات المختلطة.يمكن أن يوفر تحليل المعنويات لهذه البيانات رؤى غير متكاملة في وجهات نظر الناس والآراء.غالبا ما تكون البيانات المختلطة من التعليمات البرمجية صاخبة في الطبيعة بسبب تهجئة متعددة لنفس الكلمة، ونقص ترتيب واضح للكلمات في جملة، واختصرات عشوائية.وبالتالي، فإن العمل مع البيانات المختلطة من التعليمات البرمجية أكثر تحديا من بيانات أحادية الأونلينغ.تفسير التنبؤات النموذجية تتيح لنا تحديد متانة النموذج ضد أشكال مختلفة من الضوضاء.في هذه الورقة، نقترح منهجية لإدماج النهج القابلة للتفسير في تحليل المعنويات المختلطة من التعليمات البرمجية.من خلال تفسير تنبؤات نماذج تحليل المعنويات، نقيم مدى جودة النموذج قادر على التكيف مع الضوضاء الضمنية الموجودة في البيانات المختلطة التعليمات البرمجية.
تهدف الأبحاث حول الحوار التعاطف إلى إنهاء وكيل بسعة الفهم الدقيق والاستجابة السليمة للعواطف. تركز النماذج الحالية لتوليد الحوار المتعاطفة على تدفق المشاعر في اتجاه واحد، أي من السياق للاستجابة. نقول أن إجراء محادثة متعاطفة هي عملية ثنائية الاتجاه، حي ث يحدث التعاطف عندما يمكن أن تتقارب عواطف اثنين من المحاورين في نفس النقطة، أي، الوصول إلى توافق عاطفي. علاوة على ذلك، نجد أيضا أن الحوار المتعاطفة Corpus محدودة للغاية، مما يؤدي إلى تقييد الأداء النموذجي. لمعالجة المشكلات المذكورة أعلاه، نقترح نموذجا ثنائيا، ثنائي إلكتروني، لإنشاء إجماع عاطفي في وقت واحد واستخدام بعض البيانات الخارجية غير المستهلكة. على وجه التحديد، يدمج نموذجنا نموذج حوار إلى الأمام، نموذج حوار للخلف، ومتغير كامن منفصل يمثل الإجماع العاطفي في هندسة موحدة. ثم، لتخفيف قيود البيانات المقترنة، استخراج البيانات العاطفية غير المستفادة من محادثات مفتوحة واستخدامها ثنائي إفريقيا لإنتاج العينات الزائفة القابلة للتعاطف الزائفة، وهي أكثر كفاءة وتكلفة منخفضة من الشرح البشري. توضح التقييمات التلقائية والإنسانية أن أسلوبنا تتفوق على خطوط أساس تنافسية في إنتاج ردود متماسكة ومواءة.
يحقق نماذج اللغة المستردة مسبقا للمحولات نتائج رائعة في العديد من معايير NLU المعروفة. ومع ذلك، في حين أن أساليب المحاكمات مريحة للغاية، فهي مكلفة من حيث الوقت والموارد. هذا يدعو إلى دراسة تأثير حجم البيانات المحدد على معرفة النماذج. نستكشف هذا التأث ير على القدرات النحوية لروبيرتا، باستخدام النماذج المدربة على الأحجام الإضافية لبيانات النص الخام. أولا، نستخدم التحقيقات الهيكلية النحوية لتحديد ما إذا كانت الطرز المحددة على مزيد من البيانات ترمز كمية أعلى من المعلومات النحوية. ثانيا، نقوم بإجراء تقييم نصلي مستهدف لتحليل تأثير حجم البيانات المحدد على أداء التعميم النحوي للنماذج. ثالثا، قارنا أداء النماذج المختلفة على ثلاثة تطبيقات المصب: وضع علامات جزء من الكلام وتحليل التبعية وإعادة صياغة الحساب. نحن نتكمل دراستنا بتحليل مفاضلة التكلفة - المنفعة للتدريب مثل هذه النماذج. تظهر تجاربنا أنه في حين أن النماذج المحددة على مزيد من البيانات ترمز المزيد من المعرفة النحوية وأداء أفضل في تطبيقات المصب، فإنها لا تقدم دائما أداء أفضل عبر الظواهر الأساسية المختلفة وتأتي بتكلفة مالية وبيئية أعلى.
نظرا لأن نماذج NLP منتشرة بشكل متزايد في إعدادات موقع اجتماعي مثل الكشف عن المحتوى المسيء عبر الإنترنت، فمن الضروري التأكد من أن هذه النماذج قوية. تتمثل إحدى طرق تحسين متواضع النموذج في إنشاء بيانات معدية مضادة للعمل (CAD) لنماذج التدريب التي يمكن أن تتعلم بشكل أفضل التمييز بين الميزات الأساسية وتذكير البيانات. في حين أن النماذج المدربة على هذا النوع من البيانات قد أظهرت تعميم تعميمات خارج نطاق، فلا تزال غير واضحة ما هي مصادر هذه التحسينات. نحقق في فوائد CAD لنماذج NLP الاجتماعية من خلال التركيز على ثلاثة بنيات الحوسبة الاجتماعية --- الشعور والجوعي، خطاب الكراهية. تقييم أداء النماذج المدربة مع وبدون CAD عبر أنواع مختلفة من مجموعات البيانات، نجد أنه أثناء قيام النماذج المدربة على CAD بإظهار الأداء السفلي داخل المجال، فإنهم يعممون أفضل من المجال. نحن نفث هذا التناقض الواضح باستخدام تفسيرات الجهاز والعثور على أن CAD يقلل من الاعتماد على النموذج على ميزات زائفة. الاستفادة من نطق رواية من CAD لتحليل علاقتهم بأداء نموذجي، نجد أن CAD الذي يعمل على البناء مباشرة أو مجموعة متنوعة من CAD يؤدي إلى أداء أعلى.
الاكتشاف الموقف، الذي يهدف إلى تحديد ما إذا كان الفرد هو مفهوم مستهدف أو ضد الكشف عن الرأي العام من تدفقات بيانات وسائل التواصل الاجتماعي الكبيرة. ومع ذلك، فإن التعليق البشري لمحتوى وسائل التواصل الاجتماعي لا يستوفي دائما الموقف "" كما يقاس من خلال ا ستطلاعات الرأي العام. نوضح ذلك من خلال مقارنة موقف الفرد المبلغ عنها مباشرة إلى الموقف الذي استنتج من بيانات وسائل التواصل الاجتماعي الخاصة بهم. استفاد من استطلاع للرأي العام الطولي مع مقاعد Twitter المستفتى، أجرينا هذه المقارنة مع 1،129 فردا في أربع أهداف بارزة. نجد أن الاستدعاء مرتفعا لكل من تصنيفات الموقف المحترفين، ولكن الدقة متغير في عدد من الحالات. نحدد ثلاثة عوامل تؤدي إلى قطع الاتصال بين النص وموقف المؤلف: التناقضات الزمنية والاختلافات في البنيات وأخطاء القياس من كل من المشاركين في المسح والمعجبين. من خلال تقديم إطار لتقييم حدود نماذج الكشف عن الموقف، يوفر هذا العمل نظرة مهمة في الكشف عن الموقف حقا.
نماذج NLP عرضة لهجمات تسمم البيانات.يمكن لنوع واحد من الهجوم زرع الأبعاد في نموذج عن طريق حقن الأمثلة المسمولة في التدريب، مما تسبب في نموذج الضحية لإضاءة مثيلات الاختبار التي تتضمن نمطا محددا.على الرغم من أن الدفاعات موجودة لمواجهة هذه الهجمات، فهي محددة لنوع هجوم أو نمط.في هذه الورقة، نقترح آلية دفاعية عامة من خلال جعل عملية التدريب قوية للتسمم بالهجمات من خلال طرق تشكيل التدرج، بناء على التدريب الخاص بشكل مختلف.نظهر أن طريقتنا فعالة للغاية في التخفيف، أو حتى القضاء على الهجمات التسمم على تصنيف النص، مع تكلفة صغيرة فقط في دقة التنبؤية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا