لتطبيق الروبوتات بفعالية في بيئات العمل ومساعدة البشر، من الضروري تطوير وتقييم كيفية تأثير التأريض البصري (VG) على أداء الجهاز على الكائنات المستحقة. ومع ذلك، فإن أعمال VG الحالية محدودة في بيئات العمل، مثل المكاتب والمستودعات، حيث عادة ما يتم قطع الكائنات نظرا لقضايا استخدام الفضاء. في عملنا، نقترح مجموعة بيانات رواية OCID-REF التي تتميز بمهمة تجزئة تعبيرية بالإحالة مع تعبيرات إحالة الكائنات المستحقة. يتكون OCID-REF من 305،694 أشير إلى التعبيرات من 2،300 مشاهد مع توفير صورة RGB ومدخلات السحابة نقطة. لحل مشكلات انسداد تحديا، نجمع بأنه من الأهمية بمكان الاستفادة من إشارات 2D و 3D لحل مشكلات انسداد تحديا. توضح نتائجنا التجريبية فعالية الإشارات 2D و 3D تجميع ولكن تشير إلى الكائنات المغطاة لا تزال تحديا لأنظمة التأريض البصرية الحديثة. OCID-REF متوفر علنا في https://github.com/lluma/ocid-ref
To effectively apply robots in working environments and assist humans, it is essential to develop and evaluate how visual grounding (VG) can affect machine performance on occluded objects. However, current VG works are limited in working environments, such as offices and warehouses, where objects are usually occluded due to space utilization issues. In our work, we propose a novel OCID-Ref dataset featuring a referring expression segmentation task with referring expressions of occluded objects. OCID-Ref consists of 305,694 referring expressions from 2,300 scenes with providing RGB image and point cloud inputs. To resolve challenging occlusion issues, we argue that it's crucial to take advantage of both 2D and 3D signals to resolve challenging occlusion issues. Our experimental results demonstrate the effectiveness of aggregating 2D and 3D signals but referring to occluded objects still remains challenging for the modern visual grounding systems. OCID-Ref is publicly available at https://github.com/lluma/OCID-Ref
المراجع المستخدمة
https://aclanthology.org/
تقدم هذه الورقة مجموعة بيانات جديدة للفيديو واللغة مع إجراءات بشرية للاستدلال المنطقي متعدد الوسائط، والتي تركز على التعبيرات المتعمدة وجوقية تصف الإجراءات البشرية الديناميكية.تتكون DataSet من 200 فيديو، 5554 ملصقات عمل، و 1،942 ثلاثة توائم عمل من ال
تصف هذه الورقة عملية التوضيحية لبيانات لغة مسيئة محددة لرومانية على وسائل التواصل الاجتماعي.لتسهيل البحوث القابلة للمقارنة متعددة اللغات حول اللغة الهجومية، تتبع المبادئ التوجيهية التوضيحي بعض جهود التوضيح الحديثة لغات أخرى.يحتوي Corpus النهائي على 5
يستطيع البشر ادارك المشاهد المحيطة بهم خلال أجزاء من الثانية، على الرغم من اختلاف أنواع هذه المشاهد. يعتمد البشر في هذه العملية على معالجة المعلومات البصرية بسرعة فائقة. إضافة إلى ربطها مع مجموعة كبيرة من المعارف المسبقة. وهذا ما تفتقر إليه الحواسيب
في هذه الورقة نقدم التنفيذ النموذجي لخط أنابيب يسمح للجيل التلقائي باللغة الرمزية لغة الإشارة الألمانية من مادة فيديو ثنائية الأبعاد. يرافق العرض التقديمي شفرة المصدر. نقوم بتسجيل حركات تشكل الإنسان أثناء التوقيع مع نماذج رؤية الكمبيوتر. يتم استيراد
مراجعة العقود هي إجراء يستغرق وقتا طويلا يتحمل نفقات كبيرة للشركات وعدم المساواة الاجتماعية لأولئك الذين لا يستطيعون تحمل تكاليفها. في هذا العمل، نقترح استنتاج اللغة الطبيعي على مستوى المستند (NLI) للعقود "، وهو جديد، تطبيق عالمي حقيقي من NLI يتناول