ترغب بنشر مسار تعليمي؟ اضغط هنا

الجيل التلقائي من الصورة الرمزية لغة الإشارة ثلاثية الأبعاد في AR نظارات تحتوي على أشرطة الفيديو 2D ل

Automatic generation of a 3D sign language avatar on AR glasses given 2D videos of human signers

180   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة نقدم التنفيذ النموذجي لخط أنابيب يسمح للجيل التلقائي باللغة الرمزية لغة الإشارة الألمانية من مادة فيديو ثنائية الأبعاد. يرافق العرض التقديمي شفرة المصدر. نقوم بتسجيل حركات تشكل الإنسان أثناء التوقيع مع نماذج رؤية الكمبيوتر. يتم استيراد الإحداثيات المشتركة للأيدي والذراعين كمعالم للسيطرة على الهيكل العظمي الخاص بي. من المعالم المستقلة تشريحية، نقوم بإنشاء هيكل عظمي آخر يعتمد على بنية العظام الهيكلية الرمزية في الصورة الرمزية لحساب بيانات دوران العظام. ثم يتم استخدام هذه البيانات للتحكم في الصورة الرمزية ثلاثية الأبعاد البشرية. يتم عرض الصورة الرمزية على نظارات AR ويمكن وضعها فعليا في الغرفة، بطريقة يمكن اعتبارها في وقت واحد على المتكلم اللفظي. في المزيد من العمل، يهدف إلى تعزيز مع التعرف على الكلام وأساليب ترجمة الآلات للخدمة كترجم بلغة علامة. لقد ثبت أن النموذج الأولي للأشخاص من المجتمع الصم والأشعة السمع لتقييم شؤومها. ظهرت مشاكل مع دورات اليد المنقولة، وكان من الصعب التعرف على إيماءات اليد على الصورة الرمزية بسبب التشوهات مثل شبكات الأصابع الملتوية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التواصل بين أخصائيي الرعاية الصحية والمرضى الصم يتحدىون، والوباء الحالي Covid-19 يجعل هذه المشكلة أكثر حادة.غالبا ما لا تدخل مفسر لغة الإشارة في كثير من الأحيان المستشفيات وأقنائك الوجهلمعالجة هذه المشكلة العاجلة، قمنا بتطوير نظام يسمح بمهنيي الرعاية الصحية بترجمة الجمل التي يتم استخدامها بشكل متكرر في تشخيص وعلاج CovID-19 في لغة هولندا (NGT).يتم عرض الترجمات عن طريق مقاطع الفيديو والرسوم المتحركة الرمزية.بنية النظام هي بحيث يمكن تمديدها إلى تطبيقات أخرى ولغات تسجيل أخرى بطريقة واضحة نسبيا.
غالبا ما يتحلل ترجمة لغة الإشارة (SLT) في التعرف على الفيديو إلى اللمعان والترجمة النصية إلى النص، حيث يكون اللمعان سلسلة من الكلمات اللغوية الموضحة باللغة المنطوقة بالترتيب الذي يتم فيه توقيعه.نحن نركز هنا على الترجمة اللامع إلى النص، والتي نعلمها ك مشكلة ترجمة آلية منخفضة الموارد (NMT).ومع ذلك، على عكس المورد المنخفض التقليدي NMT، تختلف الترجمة من اللمعان إلى النص لأن أزواج النص اللامع في كثير من الأحيان تحتوي على تداخل معجمي أعلى وانخفاض التداخل النحوي أقل من أزواج اللغات المنطوقة.نستفصل هذا التداخل المعجمي والتعامل مع الاختلاف النحوي عن طريق اقتراح اثنين من الاستدلال المستندة إلى القواعد التي تولد أزواج نصية متوازية من النصوص الزائفة من نص اللغة المنطوقة غير المنطوقة.من خلال التدريب المسبق على هذه البيانات الاصطناعية، نحسن الترجمة من لغة الإشارة الأمريكية (ASL) إلى لغة الإشارة الإنجليزية والألمانية إلى الألمانية بنسبة تصل إلى 3.14 و 2.20 بلو، على التوالي.
إن الهدف الرئيسي لهذا البحث هو استكشاف إمكانيات آلات تصوير الفيديو منخفضة التكاليف في حل مسألة النمذجة ثلاثية الأبعاد للمنشآت الأثرية الضخمة. و كما نعلم, فإن اقتطاع الصور اللازمة لأي مشروع مسح تصويري هو مسألة جوهرية. لأن كلفة المشروع و المدة الزمنية اللازمة لإنهائه تعتمدان على طريقة اقتطاع هذه الصور. و عادةً ما يتم التقاط هذه الصور واحدةً فواحدة بحيث تظهر كل نقطة من نقاط العنصر المصور على صورتين على الأقل. هذه العملية تستغرق الكثير من الوقت و خاصةً في المشاريع التي تهدف إلى نمذجة المشاهد المتسعة. من ناحية أخرى, نعلم أن تسجيل الفيديو هو عملية بسيطة نسبياً و تستغرق وقتاً أقل من ذلك المطلوب لالتقاط الصور بالطريقة التقليدية. و منه, سيكون من المفيد اقتراح منهجية للاستفادة من تسجيلات الفيديو كمصدر للصور اللازمة لتوليد النماذج ثلاثية الأبعاد. في هذه الدراسة سنختبر إمكانيات آلتي تصوير فيديو, واحدة تجارية مستقلة و أخرى مرفقة مع هاتف نقّال و ذلك من أجل اقتطاع الصور اللازمة لنمذجة عناصر ضخمة نسبياً. من الملاحظ أن دقة التمييز الهندسية للقطات المقطتعة من تسجيلات الفيديو باستخدام الهواتف النقالة أو التجارية المستقلة (مقارنةً بآلات الفيديو الاحترافية) هي أقل بكثير من دقة التمييز الخاصة بالتقاط الصور العادية. و بالتالي, فإن النماذج ثلاثية الأبعاد الناتجة من هذه القطات ستكون جيدة من أجل التطبيقات التي لا تتطلب دقةً عالية.
لتطبيق الروبوتات بفعالية في بيئات العمل ومساعدة البشر، من الضروري تطوير وتقييم كيفية تأثير التأريض البصري (VG) على أداء الجهاز على الكائنات المستحقة. ومع ذلك، فإن أعمال VG الحالية محدودة في بيئات العمل، مثل المكاتب والمستودعات، حيث عادة ما يتم قطع ال كائنات نظرا لقضايا استخدام الفضاء. في عملنا، نقترح مجموعة بيانات رواية OCID-REF التي تتميز بمهمة تجزئة تعبيرية بالإحالة مع تعبيرات إحالة الكائنات المستحقة. يتكون OCID-REF من 305،694 أشير إلى التعبيرات من 2،300 مشاهد مع توفير صورة RGB ومدخلات السحابة نقطة. لحل مشكلات انسداد تحديا، نجمع بأنه من الأهمية بمكان الاستفادة من إشارات 2D و 3D لحل مشكلات انسداد تحديا. توضح نتائجنا التجريبية فعالية الإشارات 2D و 3D تجميع ولكن تشير إلى الكائنات المغطاة لا تزال تحديا لأنظمة التأريض البصرية الحديثة. OCID-REF متوفر علنا ​​في https://github.com/lluma/ocid-ref
تعلق نظام ترجمة لغة الإشارة المتتالية في خرائط أول خريطة توقيع مقاطع فيديو لمعالجة التوضيحية ثم تترجم لمعان اللغات في لغات منطوقة.يركز هذا العمل على مكون الترجمة اللامع في المرحلة الثانية، وهو أمر صعب بسبب ندرة البيانات الموازية المتاحة للجمهور.نحن ن قترب الترجمة اللمعان كمهامة ترجمة آلية منخفضة الموارد والتحقيق في طريقتين شعبيتين لتحسين جودة الترجمة: فرط HyperParameter و Backtranslation.نناقش الإمكانات والمخاطر من هذه الأساليب بناء على تجارب في مجموعة بيانات RWTH-Phoenix-Weather 2014T.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا