ترغب بنشر مسار تعليمي؟ اضغط هنا

إن توفير نماذج اللغة المحددة مسبقا مع أوصاف مهمة بسيطة في اللغة الطبيعية تمكنهم من حل بعض المهام بطريقة غير منشأة بالكامل. علاوة على ذلك، عند دمج التعلم المنتظم من الأمثلة، فإن هذه الفكرة تنتج نتائج قليلة رائعة لمجموعة واسعة من مهام تصنيف النص. كما أ نه اتجاه واعد في تحسين كفاءة البيانات في الإعدادات الاسرد، ولكن هناك العديد من التحديات لاستخدام مزيج من أوصاف المهام والتعلم القائم على المثال لتوليد النص. على وجه الخصوص، من الأهمية بمكان العثور على أوصاف المهام سهلة الفهم للنموذج المحدد مسبقا وتأكد من أنه يستخدم بالفعل منهم؛ علاوة على ذلك، يجب تنفيذ تدابير فعالة ضد التجاوز. في هذه الورقة، نظير على كيفية معالجة هذه التحديات: نقدم Genet، وهي طريقة للجيل النصي الذي يستند إلى تدريب استغلال النمط، وهو نهج حديث للجمع بين التعليمات النصية مع التعلم الإشراف الذي يعمل فقط من أجل تصنيف المهام. في العديد من مجموعات بيانات التلخيص وجيل النتائج، تقدم Genet تحسينات متسقة على خطوط خطوط خطوط خطوط خطوط قليلة في إعدادات قليلة.
تدابير السيكومترية للقدرة والمواقف والتصورات والمعتقدات أمر حاسم لفهم سلوك المستخدم في سياقات مختلفة بما في ذلك الصحة والأمن والتجارة الإلكترونية والتمويل. تقليديا، تم قياس الأبعاد السيكومترية وجمعها باستخدام الأساليب المستندة إلى المسح. استنتاج مثل هذه البنيات من النص الذي تم إنشاؤه من قبل المستخدم قد يسمح بجمع وتحليلات غير مزعجة في الوقت المناسب. في هذه الورقة، نقوم ببذل جهودنا لبناء كوربوس لمعالجة اللغة الطبيعية السيكومترية (NLP) المتعلقة بالأبعاد الهامة مثل الثقة والقلق والحساب ومحو الأمية، في مجال الصحة. نناقش عملية لدينا متعددة الخطوات لمحاذاة نص المستخدم بنود الاستجابة المستندة إلى المسح وتوفير نظرة عامة على الاختبار الناتج والتي تشمل التدابير النفسية القائمة على المسح والاستطلاع على النص الذي تم إنشاؤه من قبل المستخدم من 8،502 المساواة. يشمل TestBed أيضا معلومات سكانية تم الإبلاغ عنها ذاتيا، بما في ذلك العرق والجنس والعمر والدخل والتعليم - مما يوفر فرصا لقياس التحيز وأساليب تصنيف النص. نبلغ عن نتائج أولية عن استخدام النص للتنبؤ / تصنيف تسميات استجابة المسح للمستخدمين - وعلى مدى نزاهة هذه النماذج. ونناقش أيضا الآثار المهمة لعملنا ونتيجة إلى اختبار بحث NLP في المستقبل بشأن الحروض النفسية والإنصاف.
يجعل معالجة اللغة الطبيعية الحديثة (NLP) استخداما مكثفا لأساليب التعلم العميق بسبب الدقة التي تقدمها لمجموعة متنوعة من التطبيقات.نظرا للتأثير البيئي الكبير للبيئة للتعلم العميق، تم اقتراح تحليل التكلفة والفائدة بما في ذلك بصمة الكربون وكذلك تدابير ال دقة لتحسين توثيق استخدام أساليب NLP للبحث أو النشر.في هذه الورقة، نراجع الأدوات المتاحة لقياس استخدام الطاقة وانبعاثات ثاني أكسيد الكربون لأساليب NLP.نحن تصف نطاق التدابير المقدمة ومقارنة استخدام ستة أدوات (تعقب الكربون، تعقب تأثير التجريب، الخوارزميات الخضراء، تأثير ثاني أكسيد الكربون، واستخدام الطاقة والاستزمي) على تجارب التعرف على الكيان المسماة المنجزة على إعدادات حسابية مختلفة (الخادم المحليمقابل مرفق الحوسبة).بناء على هذه النتائج، نقترح توصيات قابلة للتنفيذ لقياس الأثر البيئي بدقة تجارب NLP.
أظهرت الأساليب الحديثة بناء على نماذج اللغة المدربين مسبقا أداء مشغل قوي على المنطق المنطقي.ومع ذلك، فإنها تعتمد على شروح بيانات باهظة الثمن والتدريب المستهلكة للوقت.وهكذا، نحن نركز على التفكير المنطقي غير المنشأ.نظهر فعالية استخدام إطار عمل مشترك، ا ستنتاج اللغة الطبيعية (NLI)، لحل مهام المنطق المنطقي متنوعة.من خلال الاستفادة من نقل التحويلات من مجموعات بيانات NLI الكبيرة، وحقن المعرفة الحاسمة من مصادر المنطقية مثل 2020 والفهول الذرية، حققت طريقنا أداء غير مدهز للحالة غير المدرجة في مهمتين منطقتي المنطقية: Winowhy و Commonsenseqa.أظهر إجراء مزيد من التحليل فوائد فئات متعددة من المعرفة، ولكن مشاكل حول الكميات والمتضادات لا تزال تحديا.
تقترح هذه الورقة دراسة مهمة للكشف عن الجدة من الدلالات الدلالية الرائعة، والتي يمكن توضيحها مع المثال التالي.من الطبيعي أن يمشي شخص كلب في الحديقة، ولكن إذا قال شخص ما إن الرجل يمشي في الدجاج في الحديقة "، فهو رواية.بالنظر إلى مجموعة من الأوصاف اللغو ية الطبيعية للمشاهد العادية، نريد تحديد أوصاف المشاهد الرواية.نحن لسنا على علم بأي عمل موجود يحل المشكلة.على الرغم من أن خوارزميات الكشف عن الجدة أو الشذوذ الحالية قابلة للتطبيق، نظرا لأنها عادة ما تكون قائمة على الموضوعات، فإنها تؤدي بشكل سيئ في مهمة الكشف عن الجدة الدلالية الدقيقة.تقترح هذه الورقة نموذجا فعالا (يسمى GAT-MA) لحل المشكلة ويساهم أيضا في مجموعة بيانات جديدة.يوضح التقييم التجريبي أن GAT-MA يتفوق على 11 خطوط رئيسية من الهوامش الكبيرة.
إن التحدي الرئيسي في السؤال الرد على قواعد المعرفة (KBQA) هو التناقض بين أسئلة اللغة الطبيعية ومسارات المنطق في قاعدة المعرفة (KB). أساليب KBQA القائمة على الرسم البياني في الرسم البياني هي جيدة في استيعاب هيكل الطوبولوجي للرساه الرسم ولكن غالبا ما ت جاهل المعلومات النصية التي تحملها العقد والحواف. وفي الوقت نفسه، تتعلم نماذج اللغة المدربة مسبقا معرفة ضخمة مفتوحة عالمية من الكائنات الكبيرة، ولكنها في شكل اللغة الطبيعية وليس منظم. لسد الفجوة بين اللغة الطبيعية و KB الهيكلية، نقترح ثلاث مهام تعلم العلاقة ل KBQA القائم على BERT، بما في ذلك استخراج العلاقة ومطابقة العلاقات والمعاقين. عن طريق التدريب المعزز في العلاقة، يتعلم النموذج مواءمة تعبيرات اللغات الطبيعية للعلاقات في KB وكذلك السبب في الروابط المفقودة في KB. تظهر التجارب على WebQSP أن طريقتنا تتفوق باستمرار على خطوط الأساس الأخرى، خاصة عندما تكون KB غير مكتملة.
يعد معالجة عدم التطابق بين الأوصاف اللغوية الطبيعية واستعلامات SQL المقابلة تحديا رئيسيا للترجمة النصية إلى SQL. لسد هذه الفجوة، نقترح تمثيل SQL الوسيط (IR) يسمى SQL الطبيعية (Natsql). على وجه التحديد، يحافظ NATSQL على الوظائف الأساسية ل SQL، في حين أنه يبسط الاستفسارات على النحو التالي: (1) الاستغناء عن المشغلين والكلمات الرئيسية مثل المجموعة من قبل المجموعة، بعد، من أجل الانضمام، والتي عادة ما تكون من الصعب العثور على نظرائهم في أوصاف النص؛ (2) إزالة الحاجة إلى السدود المتداخلة وتعيين المشغلين؛ (3) جعل المخطط يربط أسهل عن طريق تقليل العدد المطلوب من عناصر المخطط. على العنكبوت، وهو معيار نصي To-SQL الصعب يحتوي على استفسارات SQL معقدة ومتداخلة، نوضح أن NATSQL تفوق irs غيرها من مصلحة الضرائب الأخرى، وتحسين أداء العديد من نماذج Sota السابقة. علاوة على ذلك، بالنسبة للنماذج الحالية التي لا تدعم جيل SQL القابل للتنفيذ، يمكنك استخدامها NATSQL بسهولة من إنشاء استعلامات SQL القابلة للتنفيذ، وتحقق دقة تنفيذ الحالة الجديدة من بين الفن.
نقترح مهمة جديدة، Text2Mol، لاسترداد الجزيئات باستخدام أوصاف اللغة الطبيعية كاستعلامات. تشفر اللغة الطبيعية والجزيئات المعلومات بطرق مختلفة جدا، مما يؤدي إلى مشكلة مثيرة ولكن صعبة للغاية لإدماج هاتين الطرائق المختلفة للغاية. على الرغم من أن بعض الأعم ال قد تم في استرجاع الاسترجاع والبنية القائمة على النصوص، إلا أن هذه المهمة الجديدة تتطلب دمج الجزيئات واللغة الطبيعية بشكل مباشر. علاوة على ذلك، يمكن اعتبار ذلك مشكلة استرجاع متبادلة مليئة بالتحدي بشكل خاص من خلال النظر في الجزيئات ككلدا بقواعد فريدة من نوعها. نقوم بإنشاء مجموعة بيانات مزخرفة من الجزيئات وأوصاف النص المقابلة، والتي نستخدمها لتعلم مساحة تضمين الدلالة المشتركة المحاذاة لاسترجاعها. نقوم بتمديد هذا لإنشاء نموذج يعتمد على الاهتمام عبر الوسائط للتفسير وإعادة تأهب من خلال تفسير الانتباه كقواعد جمعية. نوظف أيضا نهج فرقة لإدماج بنياتنا المختلفة، والتي تعمل بشكل كبير على تحسين النتائج من 0.372 إلى 0.499 مرين. يفتح هذا النهج الجديد متعدد الوسائط وجهة نظر جديدة حول حل المشكلات في فهم الأدب الكيمياء وتعلم الجهاز الجزيئي.
الوسائل المضادة هي وسيلة قيمة لفهم القرارات التي اتخذتها أنظمة ML.ومع ذلك، فإن الوسادة المتعرضية الناتجة عن الأساليب المتاحة حاليا لنص اللغة الطبيعية هي غير واقعية أو إدخال تغييرات غير محسوسة.نقترح WilDFactualgan: طريقة تجمع بين GAN الشرطية و AsbeDdi ngs من ترميز بيرت المسبق أن تولد نموذجا حقيقيا باللغة الطبيعية بشكل جزئي لتوضيح مهام الانحدار والتصنيف.تشير النتائج التجريبية إلى أن طريقتنا تنتج بشكل غير قابل للتمييز بشكل ملحوظ، مع تفوق أربعة أساليب خطية على الإخلاص والأحكام البشرية من الطبيعة، عبر مجموعات بيانات متعددة ونماذج تنبؤ متعددة.
مراجعة العقود هي إجراء يستغرق وقتا طويلا يتحمل نفقات كبيرة للشركات وعدم المساواة الاجتماعية لأولئك الذين لا يستطيعون تحمل تكاليفها. في هذا العمل، نقترح استنتاج اللغة الطبيعي على مستوى المستند (NLI) للعقود "، وهو جديد، تطبيق عالمي حقيقي من NLI يتناول مثل هذه المشاكل. في هذه المهمة، يتم إعطاء نظام مجموعة من الفرضيات (مثل بعض الالتزامات بالاتفاق قد ينجو من الإنهاء. ") وعقد، ويطلب منها تصنيف ما إذا كانت كل فرضية تنطوي عليها" "، تناقض مع" لم يذكره "(محايد) العقد وكذلك تحديد الأدلة" للقرار على أنه يمتد في العقد. شرحنا وإطلاق سراح أكبر جوربوس حتى الآن يتكون من 607 عقدا مشروحا. نوضح بعد ذلك أن النماذج الحالية تفشل بشكل سيء في مهمتنا وإدخال خط أساس قوي، والتي (أ) تحديد دليل الأدلة كتصنيف متعدد العلامات على المدافع بدلا من محاولة التنبؤ بطارية الرموز البديلة والنهاية، و (ب) توظف تجزئة السياق أكثر تطورا للتعامل مع وثائق طويلة. نوضح أيضا أن الخصائص اللغوية للعقود، مثل النفي من خلال الاستثناءات، تساهم في صعوبة هذه المهمة وأن هناك مجالا كبيرا للتحسين.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا