ترغب بنشر مسار تعليمي؟ اضغط هنا

Text2mol: استرجاع الجزيء عبر الوسائط مع استفسارات اللغة الطبيعية

Text2Mol: Cross-Modal Molecule Retrieval with Natural Language Queries

267   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقترح مهمة جديدة، Text2Mol، لاسترداد الجزيئات باستخدام أوصاف اللغة الطبيعية كاستعلامات. تشفر اللغة الطبيعية والجزيئات المعلومات بطرق مختلفة جدا، مما يؤدي إلى مشكلة مثيرة ولكن صعبة للغاية لإدماج هاتين الطرائق المختلفة للغاية. على الرغم من أن بعض الأعمال قد تم في استرجاع الاسترجاع والبنية القائمة على النصوص، إلا أن هذه المهمة الجديدة تتطلب دمج الجزيئات واللغة الطبيعية بشكل مباشر. علاوة على ذلك، يمكن اعتبار ذلك مشكلة استرجاع متبادلة مليئة بالتحدي بشكل خاص من خلال النظر في الجزيئات ككلدا بقواعد فريدة من نوعها. نقوم بإنشاء مجموعة بيانات مزخرفة من الجزيئات وأوصاف النص المقابلة، والتي نستخدمها لتعلم مساحة تضمين الدلالة المشتركة المحاذاة لاسترجاعها. نقوم بتمديد هذا لإنشاء نموذج يعتمد على الاهتمام عبر الوسائط للتفسير وإعادة تأهب من خلال تفسير الانتباه كقواعد جمعية. نوظف أيضا نهج فرقة لإدماج بنياتنا المختلفة، والتي تعمل بشكل كبير على تحسين النتائج من 0.372 إلى 0.499 مرين. يفتح هذا النهج الجديد متعدد الوسائط وجهة نظر جديدة حول حل المشكلات في فهم الأدب الكيمياء وتعلم الجهاز الجزيئي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال مرئي (VQA).أولا، نحن ندرب نموذج محاذاة جديدة لتضمين الصور والتعليقات التوضيحية في نفس الفضاء، والذي يحقق تحسنا كبيرا في الأداء على استرجاع التعليق على الصورة W.r.T.طرق مماثلة.ثانيا، نظهر أن المحولات متعددة الوسائط متعددة الاسترجاع باستخدام نموذج المحاذاة المدربين يحسن النتائج على VQA عبر خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط طويلة.كلنا إجراء تجارب مكثفة لإثبات وعد هذا النهج، وفحص طلبات جديدة لوقت الاستدلال مثل مؤشرات التبديلات الساخنة.
شروط الارتفاع استخراج (أكلت) وتصنيف معنويات الجانب (ASC) هي مهمتان أساسيتان من المهام الفرعية الأساسية والغرامة في تحليل المعنويات على مستوى الجانب (ALSA). في التحليل النصي، تم استخراج المشترك استخراج كل من شروط الارتفاع وأقطاب المعنويات كثيرا بسبب ط لبات أفضل من المهمة الفرعية الفردية. ومع ذلك، في السيناريو متعدد الوسائط، تقتصر الدراسات الحالية على التعامل مع كل مهمة فرعية بشكل مستقل، والتي تفشل في نموذج العلاقة الفطرية بين الأهدافين أعلاه وتتجاهل التطبيقات الأفضل. لذلك، في هذه الورقة، نحن أول من يؤدي ذلك بشكل مشترك أداء أكلت متعددة الوسائط (ماتي) ومتعدد الوسائط (MASC)، ونقترح نهج التعلم المشترك متعدد الوسائط مع اكتشاف العلاقات عبر الوسائط المساعد للمتوسطة تحليل المعنويات على مستوى الجانب (Malsa). على وجه التحديد، نقوم أولا بإنشاء وحدة اكتشاف علاقة نصية إضافية للكشف عنها للتحكم في الاستغلال المناسب للمعلومات المرئية. ثانيا، نعتمد إطار التسلسل الهرمي لسجل الاتصال متعدد الوسائط بين رفيقه ومتك اليومي، بالإضافة إلى توجيه بصري منفصل لكل وحدة فرعية. أخيرا، يمكننا الحصول على جميع أطريات المعنويات على مستوى جانب الجسبي تعتمد على الجوانب المحددة المستخرجة بشكل مشترك. تظهر تجارب واسعة فعالية نهجنا مقابل الأساليب النصية المشتركة والخط الأنابيب ونهج متعددة الوسائط.
حققت نماذج لغة الرؤية المحددة الأخيرة أداء مثير للإعجاب على مهام الاسترجاع عبر مشروط باللغة الإنجليزية. ومع ذلك، تعتمد نجاحهم بشكل كبير على توافر العديد من مجموعات بيانات التعليق المشروح على الصورة لإحاطاء، حيث لا تكون النصوص بالضرورة باللغة الإنجليز ية. على الرغم من أنه يمكننا استخدام أدوات الترجمة الآلية (MT) لترجمة النص غير الإنجليزي إلى اللغة الإنجليزية، فإن الأداء لا يزال يعتمد إلى حد كبير على جودة MT وقد يعاني من مشاكل عالية من الكمون في تطبيقات العالم الحقيقي. تقترح هذه الورقة نهجا جديدا لتعلم تمثيلات متعددة الوسائط عبر اللغات لمطابقة الصور وإياراتها ذات الصلة بلغات متعددة. نجمع بسلاسة بسلاسة أهداف محالمانية عبر اللغات وأهداف محالم الاحتجاج بالعدوان في إطار موحد لتعلم الصور والنص في مساحة تضمين مشتركة من بيانات التسمية التوضيحية باللغة الإنجليزية المتاحة، مونولينغيا ومتوازي Corpus. نظظ أن نهجنا يحقق أداء SOTA في مهام استرجاع على معايير التسمية التوضيحية متعددة اللغات متعددة اللغات متعددة اللغات: multi30k مع التسميات التوضيحية الألمانية و mscoco مع التسميات التوضيحية اليابانية.
تستكشف هذه المقالة إمكانية معالجة اللغات الطبيعية (NLP) لتمكين نموذج شرطة مركزة وأقل فعالية وأقل من المواجهة التي كانت تستهلك حتى الآن من الموارد لتنفيذ الحجم. الشرطة المنحى للمشاكل (البوب) هي استبدال محتمل، على الأقل جزئيا، بالنسبة للشرطة التقليدية التي تعتمد نهجا تفاعلا، تعتمد اعتمادا كبيرا على نظام العدالة الجنائية. على النقيض من ذلك، يسعى البوب ​​لمنع الجريمة من خلال التلاعب بالظروف الأساسية التي تسمح بالارتكاب الجرائم. يتطلب تحديد هذه الشروط الأساسية فهما مفصلا لأحداث الجريمة - معرفة ضمنية تعقد غالبا من قبل ضباط الشرطة ولكن يمكن أن تكون صعبة للغاية للاستمتاع ببيانات الشرطة المهيكلة. يوجد أحد المصدر المحتمل للنصية في بيانات نصية مجانية غير منظمة تجمعها الشرطة لأغراض التحقيق أو الإدارة. ومع ذلك، فإن وكالات الشرطة لا تحتوي عادة على المهارات أو الموارد لتحليل هذه البيانات على نطاق واسع. في هذه المقالة، نقول أن NLP يقدم القدرة على فتح هذه البيانات غير المنظمة وبالتالي السماح للشرطة بتنفيذ المزيد من مبادرات البوب. ومع ذلك، نحذر أن استخدام نماذج NLP دون معرفة كافية قد يسمح إما بإدخال التحيز داخل البيانات التي تؤدي إلى نتائج غير مواتية.
رؤية لغة الرؤية هي المهمة التي تتطلب وكيل للتنقل من خلال بيئة ثلاثية الأبعاد بناء على تعليمات اللغة الطبيعية. أحد التحدي الرئيسي في هذه المهمة هو التعليمات البرية مع المعلومات المرئية الحالية التي يترافق الوكيل. معظم العمل الحالي توظف اهتماما ناعما ع لى الكلمات الفردية لتحديد موقع التعليمات المطلوبة للعمل التالي. ومع ذلك، فإن كلمات مختلفة لها وظائف مختلفة في الجملة (على سبيل المثال، المعدلات ينقل السمات، الأفعال تنقل الإجراءات). يمكن أن تساعد معلومات بناء الجملة مثل التبعيات وهياكل العبارات الوكيل لتحديد أجزاء مهمة من التعليمات. وبالتالي، في هذه الورقة، نقترح وكيل التنقل الذي يستخدم معلومات بناء الجملة المستمدة من شجرة التبعية لتعزيز المحاذاة بين التعليمات والمشاهد المرئية الحالية. التجريبية، تتفوق وكيلنا على نموذج خط الأساس الذي لا يستخدم معلومات بناء الجملة على مجموعة بيانات الغرفة إلى الغرفة، خاصة في البيئة غير المرئية. بالإضافة إلى ذلك، يحقق وكيلنا الحديث الجديد في مجموعة بيانات الغرفة عبر الغرفة، والتي تحتوي على تعليمات في 3 لغات (الإنجليزية، الهندية، التيلجو). نظهر أيضا أن وكيلنا أفضل في محاذاة التعليمات مع المعلومات المرئية الحالية عبر تصورات نوعية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا