ترغب بنشر مسار تعليمي؟ اضغط هنا

OCID-RED: مجموعة بيانات ثلاثية الأبعاد الروبوتية مع لغة مجسمة لتأريض فوضى المشهد

OCID-Ref: A 3D Robotic Dataset With Embodied Language For Clutter Scene Grounding

233   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

لتطبيق الروبوتات بفعالية في بيئات العمل ومساعدة البشر، من الضروري تطوير وتقييم كيفية تأثير التأريض البصري (VG) على أداء الجهاز على الكائنات المستحقة. ومع ذلك، فإن أعمال VG الحالية محدودة في بيئات العمل، مثل المكاتب والمستودعات، حيث عادة ما يتم قطع الكائنات نظرا لقضايا استخدام الفضاء. في عملنا، نقترح مجموعة بيانات رواية OCID-REF التي تتميز بمهمة تجزئة تعبيرية بالإحالة مع تعبيرات إحالة الكائنات المستحقة. يتكون OCID-REF من 305،694 أشير إلى التعبيرات من 2،300 مشاهد مع توفير صورة RGB ومدخلات السحابة نقطة. لحل مشكلات انسداد تحديا، نجمع بأنه من الأهمية بمكان الاستفادة من إشارات 2D و 3D لحل مشكلات انسداد تحديا. توضح نتائجنا التجريبية فعالية الإشارات 2D و 3D تجميع ولكن تشير إلى الكائنات المغطاة لا تزال تحديا لأنظمة التأريض البصرية الحديثة. OCID-REF متوفر علنا ​​في https://github.com/lluma/ocid-ref



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة مجموعة بيانات جديدة للفيديو واللغة مع إجراءات بشرية للاستدلال المنطقي متعدد الوسائط، والتي تركز على التعبيرات المتعمدة وجوقية تصف الإجراءات البشرية الديناميكية.تتكون DataSet من 200 فيديو، 5554 ملصقات عمل، و 1،942 ثلاثة توائم عمل من ال نموذج (الموضوع، المسند، كائن) يمكن ترجمته بسهولة إلى تمثيلات دلالية منطقية.من المتوقع أن تكون DataSet مفيدة لتقييم أنظمة الاستدلال متعددة الوسائط بين مقاطع الفيديو والجمل المعقدة الدلوية بما في ذلك النفي والكمية.
تصف هذه الورقة عملية التوضيحية لبيانات لغة مسيئة محددة لرومانية على وسائل التواصل الاجتماعي.لتسهيل البحوث القابلة للمقارنة متعددة اللغات حول اللغة الهجومية، تتبع المبادئ التوجيهية التوضيحي بعض جهود التوضيح الحديثة لغات أخرى.يحتوي Corpus النهائي على 5 000 وظيفة مدونات دقيقة مشروح من عدد كبير من المحن المعلقين المتطوعين.إن اتفاقية المعلن والتمييز التلقائي الأولي الناتج نواجهها تتماشى مع جهود التوضيحية السابقة.
يستطيع البشر ادارك المشاهد المحيطة بهم خلال أجزاء من الثانية، على الرغم من اختلاف أنواع هذه المشاهد. يعتمد البشر في هذه العملية على معالجة المعلومات البصرية بسرعة فائقة. إضافة إلى ربطها مع مجموعة كبيرة من المعارف المسبقة. وهذا ما تفتقر إليه الحواسيب التي لم تتمكن بعد من الوصول إلى مستويات عالية في فهم المشاهد المحيطة بها. دأبت معظم الأبحاث التي تعمل ضمن مجال فهم المشاهد، على اختصار عملية فهم المشهد بتصنيفه ضمن مجموعة من التصنيفات المعرفة مسبقا (غابة، مدينة، حديقة)، باستخدام خوارزميات تصنيف او تعلم تلقائي، وهذا ما حد من وصولها إلى فهم دلالة المشهد على نحو عميق. كما قلل من قابلية استخدامها عملياً بسبب وجود مرحلة تدريب لهذه الخوارزميات. ولكن وعلى الرغم من قيام بعض الأبحاث بمحاولة الاستفادة من المعارف المخزنة بصيغة انطولوجيات للوصول إلى عملية فهم أعمق لدلالة المشهد. إلا أن هذه الأبحاث لم تتمكن سوى من العمل ضمن مجال محدد بسبب محدودية الأنطولوجيات المتوفرة حالياً. نحاول في هذه الأطروحة فهم صور المشاهد دون تحديد تصنيفات معرفة مسبقا لهذه الصور. لن نعتمد في عملية الفهم هذه على مجرد تصنيف لصور المشاهد، وانما سنعتمد إلى استخراج مفاهيم ضمنية عالية المستوى من صور المشهد, بالأعتماد على مفاهيم أولية مستخرجة منها. لا تعبر هذه المفاهيم الضمنية عن الأغراض الموجودة ضمن الصورة فحسب وأنما أيضا عن الأماكن والأحداث والأفعال الموجودة ضمن الصورة. للقيام بذلك، طورنا نظاما خاصا اسميناه ICES ويتالف من مرحلتين. تعتمد المرحلة الأولى على قاعدة صور غير متخصصة بمجال محدد، دون استخدام خوارزميات تصنيف او تعلم، وتقوم هذه المرحلة باستخراج مجموعة من المفاهيم الأولية من صورة المشهد. بينما تتالف المرحلة الثانية من خوارزمية مخصصة قمنا بتطويرها تحت اسم SMHITS لايجاد المفاهيم المترابطة دلاليا مع مجموعة المفاهيم الأولية, بالاعتماد على شبكة معارف شائعة وغنية دلالياً. أظهرت النتائج تفوق خوارزمية SMHITS على الخوارزمية المعتمدة حاليا في شبكة ConceptNet لاستخراج المفاهيم المرتبطة، وذلك من حيث الدقة والاستفادة من زيادة عدد المفاهيم, كما أظهرت الغنى الدلاي للمفاهيم المستخرجة من قبل ICES مقارنة بالأبحاث الأخرى, وقابليته للتوسع بسهولة.
في هذه الورقة نقدم التنفيذ النموذجي لخط أنابيب يسمح للجيل التلقائي باللغة الرمزية لغة الإشارة الألمانية من مادة فيديو ثنائية الأبعاد. يرافق العرض التقديمي شفرة المصدر. نقوم بتسجيل حركات تشكل الإنسان أثناء التوقيع مع نماذج رؤية الكمبيوتر. يتم استيراد الإحداثيات المشتركة للأيدي والذراعين كمعالم للسيطرة على الهيكل العظمي الخاص بي. من المعالم المستقلة تشريحية، نقوم بإنشاء هيكل عظمي آخر يعتمد على بنية العظام الهيكلية الرمزية في الصورة الرمزية لحساب بيانات دوران العظام. ثم يتم استخدام هذه البيانات للتحكم في الصورة الرمزية ثلاثية الأبعاد البشرية. يتم عرض الصورة الرمزية على نظارات AR ويمكن وضعها فعليا في الغرفة، بطريقة يمكن اعتبارها في وقت واحد على المتكلم اللفظي. في المزيد من العمل، يهدف إلى تعزيز مع التعرف على الكلام وأساليب ترجمة الآلات للخدمة كترجم بلغة علامة. لقد ثبت أن النموذج الأولي للأشخاص من المجتمع الصم والأشعة السمع لتقييم شؤومها. ظهرت مشاكل مع دورات اليد المنقولة، وكان من الصعب التعرف على إيماءات اليد على الصورة الرمزية بسبب التشوهات مثل شبكات الأصابع الملتوية.
مراجعة العقود هي إجراء يستغرق وقتا طويلا يتحمل نفقات كبيرة للشركات وعدم المساواة الاجتماعية لأولئك الذين لا يستطيعون تحمل تكاليفها. في هذا العمل، نقترح استنتاج اللغة الطبيعي على مستوى المستند (NLI) للعقود "، وهو جديد، تطبيق عالمي حقيقي من NLI يتناول مثل هذه المشاكل. في هذه المهمة، يتم إعطاء نظام مجموعة من الفرضيات (مثل بعض الالتزامات بالاتفاق قد ينجو من الإنهاء. ") وعقد، ويطلب منها تصنيف ما إذا كانت كل فرضية تنطوي عليها" "، تناقض مع" لم يذكره "(محايد) العقد وكذلك تحديد الأدلة" للقرار على أنه يمتد في العقد. شرحنا وإطلاق سراح أكبر جوربوس حتى الآن يتكون من 607 عقدا مشروحا. نوضح بعد ذلك أن النماذج الحالية تفشل بشكل سيء في مهمتنا وإدخال خط أساس قوي، والتي (أ) تحديد دليل الأدلة كتصنيف متعدد العلامات على المدافع بدلا من محاولة التنبؤ بطارية الرموز البديلة والنهاية، و (ب) توظف تجزئة السياق أكثر تطورا للتعامل مع وثائق طويلة. نوضح أيضا أن الخصائص اللغوية للعقود، مثل النفي من خلال الاستثناءات، تساهم في صعوبة هذه المهمة وأن هناك مجالا كبيرا للتحسين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا