ترغب بنشر مسار تعليمي؟ اضغط هنا

تركز العديد من مهام NLG مثل التلخيص أو استجابة الحوار أو سؤال المجال المفتوح، والتركيز بشكل أساسي في نص مصدر من أجل توليد استجابة مستهدفة.ومع ذلك، يقع هذا النهج القياسي، عندما يكون نية المستخدم أو سياق العمل غير قابل للاسترداد بسهولة بناء على النص ال مصدر هذا فقط - سيناريو الذي نقوله هو أكثر من القاعدة من الاستثناء.في هذا العمل، نجرب أن أنظمة NLG بشكل عام يجب أن تضع مستوى أعلى بكثير من التركيز على استخدام سياق إضافي، وتشير إلى أن الأهمية (كما هو مستخدم باسترجاع المعلومات) تعتبر كأداة حاسمة لتصميم النص الموجه للمستخدمالمهام - المهام.ونحن نناقش كذلك الأضرار والمخاطر المحتملة حول هذه التخصيص، وتجادل أن التصميم الحساس في القيمة يمثل طريقا حاسما للأمام من خلال هذه التحديات.
لكل مهمة حوار موجهة نحو تحقيق الأهداف ذات أهمية، يجب جمع كميات كبيرة من البيانات للحصول على التعلم المنتهي للنظام الحوار العصبي.جمع هذه البيانات هي عملية مكلفة وتستغرق وقتا طويلا.بدلا من ذلك، نوضح أنه يمكننا استخدام كمية صغيرة فقط من البيانات، والتي تستكمل البيانات من مهمة حوار ذات صلة.فشل التعلم بسذاجة من البيانات ذات الصلة في تحسين الأداء لأن البيانات ذات الصلة يمكن أن تكون غير متسقة مع المهمة المستهدفة.نحن نصف طريقة تعتمد على التعلم التعريفي والتي تتعلم بشكل انتقائي من بيانات مهمة الحوار ذات الصلة.نهجنا يؤدي إلى تحسينات بدقة كبيرة في مهمة الحوار مثال.
يحتاج تحليل الأدبيات العلمي إلى التعرف على الكيان المسمى بشكل جيد (NER) لتوفير مجموعة واسعة من المعلومات للاكتشاف العلمي. على سبيل المثال، يحتاج أبحاث الكيمياء إلى دراسة العشرات إلى مئات أنواع الكيانات المتميزة والجمالية المميزة، مما يجعل التعليق الت وضيحي ثابت ودقيقا صعبا حتى للحشود من خبراء المجال. من ناحية أخرى، يمكن الوصول بسهولة إلى أونتالولوجيات خاصة بالمجال وقواعد المعرفة (KBS) بسهولة، أو شيدت، أو متكامل، مما يجعل الإشراف البعيد واقعية للكيمياء النيذبة الناشئة. في الإشراف البعيد، يتم إنشاء تسميات التدريب عن طريق مطابقة تذكر في وثيقة مع المفاهيم في قواعد المعرفة (KBS). ومع ذلك، فإن هذا النوع من مطابقة KB يعاني من تحديين رئيسيين: التعليق التوضيحي غير الكامل والشروح الصاخبة. نقترح كيمنر، وهي طريقة توجيهية، تحت مضاد المسترد بها، تحت إشراف صاخبة للكيمياء النيذاري المحبوسين عن هذه التحديات. إنه يرفع هيكل OnTology لنوع الكيمياء لتوليد ملصقات بعيدة مع أساليب رواية من الغموض متعددة الأطراف متعددة الأطباق متعددة الأطباق. إنه يحسن بشكل كبير من توليد التسمية البعيدة للتدريب على تسلسل التسلسل اللاحق. نحن نقدم أيضا مجموعة بيانات من الخبراء، وكيمياء NER مع 62 نوعا من كيمياء كيمياء دقيقة (على سبيل المثال، المركبات الكيميائية والتفاعلات الكيميائية). تظهر النتائج التجريبية أن CHEMMNER فعالة للغاية، مما يتفوق بشكل كبير على أساليب NER-Artication NER (مع تحسن درجة F1 المطلقة).
نقوم بإصدار Gesera، وهي نسخة محسنة مفتوحة المصدر من SERA لتقييم الملخصات الاستخراجية والتغييرات التلقائية من المجال العام. تعتمد SERA على محرك بحث يقارن الملخصات المرشحة والمرجعية (تسمى الاستعلامات) مقابل قاعدة مستندات استرجاع المعلومات (تسمى المؤشر) . تم تصميم Sera في الأصل للنطاق الطبي الطبيعي فقط، حيث أظهرت ارتباطا أفضل مع الأساليب اليدوية من طريقة Rouge المستندة إلى المعجمات المستخدمة على نطاق واسع. في هذه الورقة، نأخذ سيرا من المجال الطبي الطبيعي إلى عام واحد من خلال تكييف أسلوبها القائم على المحتوى لتقييم الملخصات بنجاح من المجال العام. أولا، نحسن استراتيجية إعادة صياغة الاستعلام مع تحليل علامات نقاط البيع لعوريا المجال العام. ثانيا، نستبدل المؤشر الطبي الحيوي المستخدم في سيرا بمجموعات مقالة مقالة من مادتين ويكيبيديا. نحن نقوم بإجراء تجارب مع مجموعات بيانات TAC2008 و TAC2009 و CNNDM. تظهر النتائج أنه في معظم الحالات، تحقق Gesera ارتباطا أعلى مع أساليب التقييم اليدوي من SERA، بينما يقلل من فجوا لها مع Rouge for General-Domain Definuation. حتى gesera حتى يتجاوز الحمر في حالتين من TAC2009. أخيرا، نقوم بإجراء تجارب مكثفة وتوفير دراسة شاملة لتأثير الحنجرة البشرية وحجم المؤشر على التقييم الموجز مع SERA و GESERA.
نحن تصف MeasessVal، وهي مهمة سامية لاستخراج التهم، والقياسات، والسياق ذات الصلة من الوثائق العلمية، وهي ذات أهمية كبيرة لإنشاء الرسوم البيانية المعرفة التي تقطرن معلومات من الأدبيات العلمية.هذه مهمة جديدة في عام 2021، والتي تم استلام أكثر من 75 تقرير ا من 25 مشاركا.نتوقع أن تكون البيانات التي وضعت لهذه المهمة والنتائج التي أبلغت عنها قيمة لاستخراج المعرفة العلمية ومجتمعات البناء الأساسية المعارف الآلية.
تقدم هذه الورقة نتائجنا من المشاركة في المهمة المشتركة SMM4H 2021. تناولنا التعرف على الكيان المسمى (NER) وتصنيف النص.لمعالجة NER، استكشفنا Bilstm-CRF مع تضمين مخلجان مكدسة وميزات لغوية.حققنا في العديد من خوارزميات التعلم في الآلات (الانحدار اللوجستي ، SVM والشبكات العصبية) لمعالجة تصنيف النص.يمكن التعميم مناهجنا المقترحة لغات مختلفة وقد أظهرنا فعاليتها للغة الإنجليزية والإسبانية.حققت تقارير تصنيف النص لدينا أداء تنافسي مع درجة F1 0.46 و 0.90 على تصنيف ADE (المهمة 1A) وتصنيف المهنة (المهمة 7A) على التوالي.في حالة NER، سجلت عمليات التقديمات لدينا درجة F1 من 0.50 و 0.82 على اكتشاف ADE SPAN (المهمة 1B) والكشف عن المهنة (المهمة 7 ب) على التوالي.
نحن تصف نهجنا مباشرة إلى الأمام للمهام 5 و 6 من 2021 وسائل التواصل الاجتماعي Min - المهام المشتركة (SMM4H) المهام المشتركة.يعتمد نظامنا على DILLBERT الدقيقة على كل مهمة، وكذلك أولا ضبط النموذج على المهمة الأخرى.في هذه الورقة، نتكشف بالإضافة إلى ذلك م قدار التوصيل الدقيق ضروري لتصنيف التغريدات بدقة على النحو الذي يحتوي على أعراض Covid-19 المبلغ عنها ذاتيا (المهمة 5) أو ما إذا كانت سقسقة تتعلق Covid-19 هي التقارير الذاتية وغير الشخصية،أو أدب / أخبار ذكر الفيروس (المهمة 6).
تستخدم أنظمة الرد على السؤال المرئي الحالي (VQA) بشكل شائع الشبكات العصبية الرسم البيانية (GNNS) لاستخراج العلاقات البصرية مثل العلاقات الدلالية أو العلاقات المكانية. ومع ذلك، فإن الدراسات التي تستخدم GNNS تتجاهل عادة أهمية كل علاقة وتسلسل ببساطة الن واتج من ترميز العلاقات المتعددة. في هذه الورقة، نقترح هندسة طبقة جديدة تضرب علاقات مرئية متعددة من خلال آلية الاهتمام لمعالجة هذه المسألة. على وجه التحديد، نقوم بتطوير نموذج يستخدم تضمين السؤال ومضمون مشترك للمشفرين للحصول على أوزان الاهتمام الديناميكي فيما يتعلق بنوع الأسئلة. باستخدام الأوزان الاهتمام بالترفيه، يمكن للنموذج المقترح استخدام ميزات العلاقة المرئية اللازمة لسؤال معين. النتائج التجريبية على DataSet VQA 2.0 توضح أن النموذج المقترح تفوق الفنيات القائمة على الرسم البياني القائمة على شبكة الإنترنت. بالإضافة إلى ذلك، نقوم بتصور وزن الاهتمام وإظهار أن النموذج المقترح يعين وزن أعلى للعلاقات الأكثر صلة بالمسألة.
يركز Profner-St على اعتراف المهن والمهن من تويتر باستخدام البيانات الإسبانية.تعتمد مشاركتنا على مزيج من Adgeddings على مستوى الكلمات، بما في ذلك بيرت الإسبانية المدربة مسبقا، بالإضافة إلى تشابه التموين المحسوبة فوق مجموعة فرعية من الكيانات التي تعمل كمدخل للحصول على بنية فك تشفير التشفير مع آلية الاهتمام.أخيرا، حقق أفضل درجة لدينا قياس F1 من 0.823 في مجموعة الاختبار الرسمية.
يلقي هذه الدراسة الضوء على آثار Covid-19 في مجال معين من اللغويات الحاسوبية ومعالجة اللغات الطبيعية داخل الذكاء الاصطناعي.نحن نقدم دراسة مقطعية بشأن النوع الاجتماعي والمساهمة والخبرة التي تعتبر سنة دراسية واحدة (من أغسطس 2019 إلى 20 أغسطس) كعاموبئ في الوباء.يتم تضمين أغسطس مرتين لغرض مقارنة بين السنوية.في حين ارتفع الاتجاه في المنشورات مع الأزمة، فإن النتائج تظهر أن النسبة بين المنشورات النسائية والذكور انخفضت.هذا يساعد فقط على تقليل أهمية دور الإناث في المساهمات العلمية لللغويات الحاسوبية (أصبح الآن أقل بكثير من ذروة 0.24).يحتوي الوباء على تأثير سلبي بشكل خاص على إنتاج كبار الباحثات في المركز الأول للمؤلفين (أقصى عمل)، تليها الباحثون الصغار الإناث في المركز الأخير من المؤلفين (الإشراف أو العمل التعاوني).
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا