ترغب بنشر مسار تعليمي؟ اضغط هنا

تصف هذه الورقة طريقة لاسترداد الأدلة والتنبؤ بعثور على مزاعم واقعية، على مجموعة البيانات المحمولة.تتكون الأدلة من كل من الجمل وخلايا الطاولة.الطريقة المقترحة هي جزء من المهمة المشتركة للحمى.يستخدم درجات التشابه بين متجهات TF-IDF لاسترداد الأدلة النصي ة ودرجات التشابه بين ناقلات كثيفة التي تم إنشاؤها بواسطة نماذج Tapas التي تم ضبطها بشكل جيد لاسترجاع الأدلة الجدولية.يتم تمرير الأدلة من خلال شبكة عصبية كثيفة لإنتاج تسمية صحية.النتيجة الحميرة للنظام المقترح 0.126.
نقدم متعدد اليوراء، مجموعة بيانات جديدة متعددة اللغات لتصنيف الموضوع للوثائق القانونية. تضم DataSet قوانين الاتحاد الأوروبي 65 ألف (EU)، والتي ترجمت رسميا في 23 لغة، مشروحا بالملصقات المتعددة من تصنيف Eurovoc. نسلط الضوء على تأثير المنفأة الزمنية الا نجراف وأهمية التسلسل الزمني، بدلا من الانقسامات العشوائية. نستخدم DataSet كاختبار لنقل صفرية عبر اللغات، حيث استغلنا المستندات التدريبية المشروح بلغة واحدة (مصدر) لتصنيف المستندات بلغة أخرى (الهدف). نجد أن ضبط النموذج المحدد المتعدد اللغتين (XLM-Roberta، MT5) في لغة مصدر واحدة يؤدي إلى نسيان كارثي من المعرفة متعددة اللغات، وبالتالي، فإن تحويل صفر ضعيف إلى لغات أخرى. استراتيجيات التكيف، وهي استراتيجيات دقيقة، محولات، معترفيت، LNFIT، اقترحت في الأصل تسريع الضبط الجميل للمهام النهائية الجديدة، والمساعدة في الاحتفاظ بالمعرفة متعددة اللغات من الاحتجاج، وتحسين نقل اللغات الصفر قليلا، ولكن تأثيرها يعتمد أيضا على ذلك على النموذج المحدد مسبقا يستخدم وحجم مجموعة التسمية.
هيكل وسائل الإعلام الإخبارية الإبلاغ عن الأحداث أو القضايا باستخدام وجهات نظر معينة. عند وصف الحادث الذي ينطوي على أعمال عنف بندقية، على سبيل المثال، قد يركز بعض الصحفيين على تنظيم الصحة العقلية أو البندقية، بينما يجوز للآخرين التأكيد على مناقشة حقوق البندقية. تسمى هذه المنظورات إطارات "في بحث الاتصالات. نحن ندرس، لأول مرة، قيمة الجمع بين الصور الرائدة ومعلوماتها السياقية مع النص لتحديد إطار مقال أخبار معين. نلاحظ أن استخدام أوضاع متعددة من المعلومات (المقالات والميزات المشتقة من الصور) يحسن التنبؤ بإطارات الأخبار حول أي طريقة واحدة من المعلومات عندما تكون الصور ذات صلة بإطارات العناوين الرئيسية. نلاحظ أيضا أن أهمية صورة الإطار مرتبطة سهولة نقل الإطارات عبر الصور، والتي نسميها. بالإضافة إلى ذلك، نطلق سراح بيانات تأطير الأخبار متعددة الوسائط المتعددة متعلقة بعنف بندقية في الولايات المتحدة، المنسوحة والمشروحة من قبل باحثين الاتصالات. ستتيح DataSet للباحثين مواصلة فحص استخدام طرائق معلومات متعددة لدراسة تأطير الوسائط.
نقترح نموذجا عاما عميقا يقوم بإجراء تحليل الطباعة وإعادة بناء الخط عن طريق تعلم أنواع DESENTANGLED من كل من نمط الخط وشكل الأحرف. يتيح لنمنا نهجنا على زيادة عدد أنواع الأحرف التي يمكننا النموذج بشكل فعال مقارنة بالطرق السابقة. على وجه التحديد، نستنتج المتغيرات الكامنة المنفصلة التي تمثل الشخصية والخط عبر زوج من شبكات الاستدلال التي تأخذ كمجموعات مدخلات من الحروفية التي تشترك كلها إما كوعي حرف، أو تنتمي إلى الخط نفسه. يتيح هذا التصميم طرازنا التعميم مع الشخصيات التي لم يتم ملاحظتها أثناء وقت التدريب، وهي مهمة مهمة في ضوء Sparsity النسبية لمعظم الخطوط. لقد طرحنا أيضا خسارة جديدة، مكيفة من العمل السابق التي تقيس احتمال استخدام توزيع متكيف في مساحة متوقعة، مما يؤدي إلى المزيد من الصور الطبيعية دون الحاجة إلى تمييز. نحن نقيم في مهمة إعادة بناء الخط على مجموعات البيانات المختلفة التي تمثل أنواع الأحرف من العديد من اللغات، ومقارنة إيجابية لأنظمة نقل النمط الحديث وفقا لمقاييس كل من المقاييس التلقائية والتقييم يدويا.
لقد أظهر العمل السابق أن أنظمة التسجيل الآلي للمقالات، ولا سيما أنظمة التعلم في الجهاز، ليست قادرة على تقييم جودة المقالات، ولكنها تعتمد على طول المقال، وهو عامل غير ذي صلة لكتابة الكفاءة.في هذا العمل، نوضح أولا أن الأنظمة الحديثة، أنظمة التسجيل العص بي العصبي الحديثة، قد تتأثر أيضا بالارتباط بين طول المقال وعشرات في مجموعة بيانات قياسية.في تقييمنا، يظهر نموذج عصبي بسيط للغاية الأداء الحديث في مجموعة البيانات القياسية.للنظر في محتوى المقالات دون تناول طول المقالات في الاعتبار، نقدم نموذج عصبي بسيط تقييم تشابه المحتوى بين مقال الإدخال والمقالات تعيين درجات مختلفة.يحقق هذا النموذج العصبي أداء مماثل لدولة الفن على مجموعة بيانات قياسية وكذلك في مجموعة بيانات ثانية.تشير النتائج التي توصلنا إليها إلى أن أنظمة تسجيل المقالات العصبية يجب أن تنظر في خصائص مجموعات البيانات للتركيز على جودة النص.
النمط هو جزء لا يتجزأ من اللغة الطبيعية.ومع ذلك، فإن أساليب التقييم لتدابير النمط نادرة، وغالبا ما تكون المهام الخاصة وعادة ما لا تتحكم في المحتوى.نقترح إطار تقييم النمط المعياري والحبوب المحتوى ومقره المحتوى (STEL) لاختبار أداء أي نموذج يمكن مقارنة جملتين على النمط.نحن نوضح ستيل مع أبعاد عامين من النمط (رسمي / غير رسمي وبسيط / معقد) بالإضافة إلى خصائصين محددة للأسلوب (Contrac'tion and Numb3r البديلة).نجد أن الأساليب القائمة على BERT تفوق إصدارات بسيطة من تدابير النمط الشائعة الاستخدام مثل 3 غرامات وترقيب الترقيم والنهج القائمة على LIWC.نحن ندعو إضافة مهام أخرى وثيمات مهمة إلى ستيل ونأمل في تسهيل تحسين التدابير الحساسة للنمط.
إسناد التأليف هو مهمة تعيين وثيقة غير معروفة إلى مؤلف من مجموعة من المرشحين.في الماضي، تستخدم الدراسات في هذا المجال مجموعات بيانات التقييم المختلفة لإظهار فعالية الخطوات والميزات والنماذج مسبقا.ومع ذلك، فإن جزء صغير فقط من الأعمال يستخدم أكثر من مجم وعة بيانات لإثبات المطالبات.في هذه الورقة، نقدم مجموعة من مجموعات بيانات إيسبت الأمعاء المتنوعة للغاية، والتي تعميم نتائج التقييم بشكل أفضل من أبحاث إسناد التأليف.علاوة على ذلك، نقوم بتنفيذ مجموعة واسعة من نماذج تعلم الآلات المستخدمة سابقا وإظهار أن العديد من النهج تظهر عروضا مختلفة بشكل كبير عند تطبيقها على مجموعات بيانات مختلفة.ندرج نماذج لغة مدربة مسبقا، لأول مرة اختبرها في هذا المجال بطريقة منهجية.أخيرا، نقترح مجموعة من الدرجات المجمعة لتقييم جوانب مختلفة من جمع البيانات.
في استخراج الكيان المشترك والعلاقة، العمل الحالي إما ترميز الميزات الخاصة بمهام المهام بالتتابع، مما يؤدي إلى عدم التوازن في تفاعل الميزات المشتركة بين المهام حيث لا يكون للميزات المستخرجة لاحقا اتصالا مباشرا مع تلك التي تأتي أولا. أو ترميز ميزات الك يان وميزات العلاقة بطريقة متوازية، مما يعني أن التعلم التمثيل الميزات لكل مهمة مستقلة إلى حد كبير عن بعضها البعض باستثناء مشاركة الإدخال. نقترح شبكة تصفية القسم لنموذج التفاعل في اتجاهين بين المهام بشكل صحيح، حيث تحلل ترميز الميزة في خطوتين: القسم والتصفية. في تشفيرنا، نحن نستفيد بوابات اثنين: كيان وبوابة العلاقة، إلى الخلايا العصبية بالقطاع إلى قسمين مهمتين وتقسيم مشترك واحد. يمثل القسم المشترك معلومات مشتركة بين المهام القيمة لكل من المهام ويتم تقاسمها بالتساوي عبر مهمتين لضمان التفاعل السليم في اتجاهين. تمثل أقسام المهام معلومات مهمة داخلية ويتم تشكيلها من خلال الجهود المتضاحية لكل من البوابات، مما يتأكد من أن ترميز ميزات المهام الخاصة يعتمد على بعضها البعض. تظهر نتائج التجربة على ستة مجموعات بيانات عامة أن طرازنا يؤدي أفضل بكثير من النهج السابقة. بالإضافة إلى ذلك، على عكس ما ادعى العمل السابق، تشير تجاربنا الإضافية إلى أن التنبؤ بالعلامة مساهمة في تنبؤ الكيان المسمى بطريقة غير مهم. يمكن العثور على شفرة المصدر في https://github.com/coopercoper/pfn.
يتنبأ تحليل المعنويات المستندة إلى جانب الجسيم (ABASA) بقبولية المعنويات نحو مصطلح معين معين في جملة، وهي مهمة مهمة في تطبيقات العالم الحقيقي. لأداء ABSA، يلزم النموذج المدرب أن يكون له فهم جيد للمعلومات السياقية، وخاصة الأنماط الخاصة التي تشير إلى ق طبية المعنويات. ومع ذلك، تختلف هذه الأنماط عادة في جمل مختلفة، خاصة عندما تأتي الجمل من مصادر مختلفة (المجالات)، مما يجعل ABSA لا يزال صعبا للغاية. على الرغم من الجمع بين البيانات المسمى عبر مصادر مختلفة (المجالات) هو حل واعد لمعالجة التحدي، في التطبيقات العملية، عادة ما يتم تخزين هذه البيانات المسمى في مواقع مختلفة وقد لا يمكن الوصول إليها لبعضها البعض بسبب الخصوصية أو المخاوف القانونية (مثل البيانات مملوكة لشركات مختلفة). لمعالجة هذه المشكلة واستخدم أفضل استخدام لجميع البيانات المسمى، نقترح نموذج ABSA الجديد مع التعلم الفيدرالي (FL) المعتمد للتغلب على قيود عزل البيانات وإدماج ذاكرة الموضوع (TM) المقترح اتخاذ حالات البيانات من مصادر متنوعة (المجالات) في الاعتبار. خاصة، تهدف TM إلى تحديد مصادر البيانات المختلفة المعزولة بسبب عدم إمكانية الوصول إلى البيانات من خلال توفير معلومات فئة مفيدة للتنبؤات المحلية. توضح النتائج التجريبية على بيئة محاكاة لثلاثة عقد مع ثلاث عقود فعالية نهجنا، حيث تتفوق TM-FL على خطوط أساس مختلفة بما في ذلك بعض أطر FL مصممة جيدا.
توفر الجداول معرفة قيمة يمكن استخدامها للتحقق من العبارات النصية. في حين أن عددا من الأعمال قد نظر في التحقق من الحقائق القائم على الطاولة، فإن المحاذاة المباشرة للبيانات الجذابية مع الرموز في البيانات النصية نادرا ما توفرها. علاوة على ذلك، فإن تدريب نموذج التحقق من الحقائق المعممة يتطلب بيانات تدريبية ملصقة وفيرة. في هذه الورقة، نقترح نظام رواية لمعالجة هذه المشكلات. مستوحاة من السببية المتعددة، يحدد نظامنا من رجال الصمغ على مستوى الرمز في البيان مع تقدير البحار الذي يستند إلى التحقيق. يتيح تقدير Salience التعلم المعزز للتحقق من الحقائق من وجهات نظر. من منظور واحد، يقوم نظامنا بإجراء تنبؤ ممثن بالبرنامج المريح لتعزيز النموذج للمحاذاة والتفكير بين الطاولة والبيان. من المنظور الآخر، ينطبق نظامنا على توضيح تكبير البيانات الإدراك بالاستثناء لإنشاء مجموعة متنوعة من مثيلات التدريب عن طريق استبدال المصطلحات غير البارزة. تظهر النتائج التجريبية على Tabract التحسن الفعال من خلال تقنيات التعلم التي أدركها Carience المقترحة، مما يؤدي إلى أداء Sota الجديد على المعيار.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا