ترغب بنشر مسار تعليمي؟ اضغط هنا

على الرغم من إظهار قيم واعدة للتطبيقات المصب، فإن توليد السؤال والإجابة معا يتم استكشافها. في هذه الورقة، نقدم مهمة جديدة تستهدف توليد زوج الإجابة على الأسئلة من الصور المرئية. لا يتطلب عدم توليد أزواج حول الإجابات المتنوعة فقط ولكن أيضا الحفاظ على ا لاتساق منهم. نحن ندرس نماذج جيل مختلفة لهذه المهمة واقتراح ثلاث نماذج: نموذج خط الأنابيب، النموذج المشترك، النموذج المتسلسل. نحن ندمج الاستدلال الاختلافي في هذه النماذج لتحقيق التنوع والاتساق. ونحن نقترح أيضا تقدير تمثيل المنطقة ومحاذاة الاهتمام لتحسين الاتساق أكثر. ونحن أخيرا وضع مقيم كقيط كمي للاتساق. نحن نقوم بالتحقق من نهجنا على معيارين، VQA2.0 و Visual-7W، من خلال تقييم التنوع والاتساق يدويا يدويا. تظهر النتائج التجريبية فعالية نماذجنا: يمكن أن تولد أزواج متنوعة أو متسقة. علاوة على ذلك، يمكن استخدام هذه المهمة لتحسين جيل السؤال المرئي والإجابة على السؤال المرئي.
نماذج الترجمة الآلية العصبية حساسة للضوضاء في نصوص الإدخال، مثل كلمات أخطاء إملائية والإنشاءات غير الرسمية.تفشل تقنيات المتانة الحالية عموما عند مواجهة أنواع غير مرئية من الضوضاء وأدائها تتحلل من النصوص النظيفة.في هذه الورقة، نركز على ثلاثة أنواع من الضوضاء الواقعية التي يتم إنشاؤها عادة من قبل البشر وإدخال فكرة السياق البصري لتحسين متانة الترجمة للنصوص الصاخبة.بالإضافة إلى ذلك، نصف نظام تدريب تصحيح خطأ رواية يمكن استخدامه كمهمة مساعدة لزيادة تحسين متانة الترجمة.تظهر تجارب الترجمة الإنجليزية والفرنسية والإنجليزية - الألمانية أن كل من مكونات تصحيح الأخطاء المتعددة الوسائط والخروج تعمل على تحسين متانة النموذج للنصوص الصاخبة، بينما لا تزال تحتفظ بجودة الترجمة على النصوص النظيفة.
يتم تعريف المنزول على أنه المعرفة التي يوافق عليها الجميع. ومع ذلك، فإن أنواع معينة من المعرفة المنطقية مرتبطة بالثقافة والمواقع الجغرافية ويتم تقاسمها فقط محليا. على سبيل المثال، تختلف مشاهد مراسم الزفاف عبر المناطق الناجمة عن الجمارك المختلفة التي تتأثر بالعوامل التاريخية والدينية. ومع ذلك، حذفت هذه الخصائص الإقليمية عموما في العمل السابق. في هذه الورقة، نقوم بإنشاء مجموعة بيانات منطق مرئية للبصرية (GD-VCR) لاختبار قدرة النماذج في الرؤية واللغة على فهم المنطقية الثقافية والرائعة. على وجه الخصوص، نقوم بدراسة نماذج للرؤية واللغدية التي من بين الفنون، و Visualbert و Vilbert تدربت على VCR، وهو معيار قياسي مع الصور في المقام الأول من المناطق الغربية. بعد ذلك تقييم مدى جودة أن تعميم النماذج المدربة للإجابة على الأسئلة في GD-VCR. نجد أن أداء كلا النماذج للمناطق غير الغربية بما في ذلك شرق آسيا وجنوب آسيا وأفريقيا أقل بكثير من تلك الخاصة بالمنطقة الغربية. نقوم بتحليل الأسباب الكامنة وراء تباين الأداء وتجد أن فجوة الأداء أكبر على أزواج ضمنيا: 1) تشعر بالقلق من السيناريوهات المتعلقة بالثقافة، على سبيل المثال، حفلات الزفاف، الأنشطة الدينية، والمهرجانات؛ 2) تتطلب منطق المنطقي الجغرافي الرفيع المستوى بدلا من التصور والاعتراف بالترتيب المنخفض. يتم إصدار DataSet و Code في https://github.com/wadeyin9712/gd-vcr.
في حين أن الكثير من الأبحاث قد تم في توليف الرسائل النصية إلى صورة، فقد تم إجراء القليل من العمل لاستكشاف استخدام الهيكل اللغوي لنص المدخلات. هذه المعلومات أكثر أهمية بالنسبة لتصور القصة لأن مدخلاتها لها هيكل سرد صريح يحتاج إلى ترجمة إلى تسلسل الصورة (أو قصة مرئية). أظهر العمل المسبق في هذا المجال أن هناك مجالا واسعا للتحسين في تسلسل الصور الناتج من حيث الجودة البصرية والاتساق والأهمية. في هذه الورقة، نستكشف أولا استخدام أجهزة تحليل الدائرة باستخدام بنية متكررة قائمة على المحولات لترميز المدخلات المهيكلة. ثانيا، نشجع المدخلات المنظمة مع معلومات المنطقية ودراسة تأثير هذه المعرفة الخارجية على جيل القصة البصرية. ثالثا، نحن أيضا دمج البنية المرئية عبر المربعات المحيطة والتسمية الكثيفة لتوفير ملاحظات حول الأحرف / الكائنات في الصور التي تم إنشاؤها داخل إعداد تعليمي مزدوج. نظهر أن نماذج التسمية الكثيفة غير الرفية التي تم تدريبها على جينوم المرئي يمكن أن تحسن الهيكل المكاني للصور من مجال مستهدف مختلف دون الحاجة إلى ضبط جيد. نحن ندرب طراز النموذج باستخدام فقدان داخل القصة داخل القصة (بين الكلمات والمناطق الفرعية للصور) وإظهار تحسينات كبيرة في الجودة البصرية. أخيرا، نحن نقدم تحليلا للمعلومات اللغوية والمكانية.
تم في هذا البحث الحصول على صفيحة متوازية الوجهين، تستخدم في المجالين المرئي وتحت الأحمر القريب، وفق نسبة تمرير للضوء مقدارها 50% ونسبة الضوء المنعكس عنها 50% ، ودون أن يكون هنالك أي أثر لنوع الضوء المستخدم، من حيث الاستقطاب ونسبته في كل اتجاه، ودون الحاجة لتوجيه الصفيحة وفق زاوية 45 بدقة عالية. يمكن أن نستفيد في هذا البحث في جميع مخابر القياسات الضوئية، ومخابر تقانات الليزر ومخابر الاتصالات الضوئية والتصوير الضوئي.
أصبحت ميمات الإنترنت في كل مكان في شبكات وسائل التواصل الاجتماعي اليوم.نظرا لشعبيةهم، فهي أيضا وضع التعبير المستخدم على نطاق واسع لنشر التضليل عبر الإنترنت.نظرا لأن الميمات تتكون من مزيج من النص والصورة، فإنها تتطلب نهجا متعدد الوسائط للتحليل التلقائ ي.في هذه الورقة، نصف مساهمتنا في اكتشاف Semeval-2021 من تقنيات الاقتران في النصوص والصور المهمة.نقترح نظام تعليمي متعدد الوسائط، مما يشتمل على membeddings ''، viz.ميزات النص المشتركة والرؤية من خلال الجمع بينها مع تجمع bilinear المدمجة، لتحديد تقنيات التهاضة الخطابية والنفسية تلقائيا.تظهر النتائج التجريبية أن النظام المقترح يتفوق باستمرار على خط الأساس في المسابقة، وتحقق أفضل درجة ماكرو F1 و 14 درجة 14 درجة مئوية من جميع المشاركين.
تصف هذه الورقة النظام المستخدم من قبل فريق Aimh للتعامل مع المهمة السامية 6. نقترح نهج يعتمد على بنية بناء على نموذج المحول لمعالجة المحتوى متعدد الوسائط (النص والصور) في الميمات.بنية لدينا، تسمى DVTT (محول نصي مرئي مزدوج)، تقترب من المهام الفرعية 1 و 3 من المهمة 6 كمشاكل تصنيف متعددة التسميات، حيث تتم معالجة نص و / أو صور ميمي، واحتمالات وجود كل إقناع محتمليتم إرجاع التقنية نتيجة لذلك.يستخدم DVTT شبكتان كاملا من المحولات التي تعمل على النص والصور مشروطة بشكل متبادل.يعمل أحد الطرائقين كأداة رئيسية والثانية التدخل في إثراء أول واحد، وبالتالي الحصول على طريقتين مميزين للعمل.يتم دمج مخرجات المحولاتين عن طريق حساب احتمالات الاستفادة من كل ملصق ممكن، ويتم تدريب الشبكة الشاملة على نهاية إلى نهاية مع فقدان انتروبيا ثنائي.
دفعت التدريب المسبق متعدد الوسائط إلى التقدم الرائع في أبحاث الرؤية واللغة. هذه النماذج المدربة مسبقا واسعة النطاق، على الرغم من نجاحها، تعاني مصححة من سرعة الاستدلال البطيء بسبب التكلفة الحسابية الهائلة بشكل أساسي من الاهتمام عبر الوسائط في بنية محو ل. عند تطبيقها على تطبيقات الحياة الحقيقية، فإن طلب الكمون والحساب الحساب يردع بشدة الاستخدام العملي للنماذج المدربة مسبقا. في هذه الورقة، ندرس استرجاع نص الصورة (ITR)، سيناريو أكثر نضجا من تطبيق V + L، الذي تمت دراسته على نطاق واسع حتى قبل ظهور النماذج المدربة مسبقا مؤخرا. نقترح نهج بسيط ولكنه فعال للغاية، الذي يسرع وقت الاستدلال في ITR بآلاف المرات، دون التضحية بالدقة. يزيل LightNingdot الاهتمام المتعلق بالعشرات المستهلكة للوقت من خلال استخراج فهارس ميزة ذات مخزيرة مؤقتا في وضع عدم الاتصال، وتوظيف مطابقة منتجات DOT الفورية عبر الإنترنت، والتي تسرع بشكل كبير عملية الاسترجاع بشكل كبير. في الواقع، يحقق LightNingDot أداء فائقا عبر معايير ITR الرئيسية مثل DataSets Flickr30k و Coco، مما يتفوق على النماذج الموجودة المدربة مسبقا تستهلك 1000 مرة من الساعات الحاسوبية باستخدام نفس الميزات.
تعتبر تصور القصة مهمة غير مسجلة تقع عند تقاطع العديد من الاتجاهات البحثية المهمة في كل من رؤية الكمبيوتر ومعالجة اللغات الطبيعية. في هذه المهمة، نظرا لسلسلة من التسميات التوضيحية باللغة الطبيعية التي تنشأ قصة، يجب أن يولد الوكيل سلسلة من الصور التي ت توافق مع التسميات التوضيحية. قدم العمل السابق نماذج تائحة تكرار تتفوق نماذج توليف النص إلى الصورة في هذه المهمة. ومع ذلك، هناك مجال لتحسين الصور التي تم إنشاؤها من حيث الجودة البصرية والتماسك والأهمية. نقدم عددا من التحسينات إلى نهج النمذجة السابقة، بما في ذلك (1) إضافة إطار تعليمي مزدوج يستخدم تقسيم الفيديو لتعزيز المحاذاة الدلالية بين القصة والصور التي تم إنشاؤها، (2) آلية تحويل النسخ المتوسطة تصور القصة، و (3) من المحولات المستندة إلى مارت إلى التفاعلات المعقدة بين الإطارات. نقدم دراسات الاجتثاث لإظهار تأثير كل تقنيات من هذه التقنيات على القوة المنتجة للنموذج لكل من الصور الفردية وكذلك السرد بأكمله. علاوة على ذلك، بسبب تعقيد الطبيعة والطبيعة الإندنية للمهمة، لا تعكس مقاييس التقييم القياسية الأداء بدقة. لذلك، فإننا نقدم أيضا استكشاف مقاييس التقييم للنموذج، ركز على جوانب الإطارات التي تم إنشاؤها مثل وجود / جودة الشخصيات الناتجة، والأهمية التعيينات، وتنوع الصور التي تم إنشاؤها. نقدم أيضا تجارب الارتباط لمقاييسنا الآلية المقترحة مع التقييمات البشرية.
تعد نمذجة معلومات البناء BIM من أبرز التطورات التي شهدها مجال صناعة التشييد في العقد الأخير، حيث تم استخدام BIM في مختلف مراحل البناء و من هذه المراحل صيانة و تشغيل المنشآت، ساعد BIM إدارة المنشأة لتتعامل مع كم كبير من المعلومات المتعلقة بالصيانة و ا لتي تتضمن الرسوم و المواصفات و القوائم و التقارير، أثبت BIM فعاليته كمستودع لمختلف أنواع البيانات في مجال صيانة المنشآت و أداة لدعم القرار في مجال الصيانة. و لكن تنفيذ الصيانة بالشكل الأمثل في المنشأة لا يعتمد فقط على البيانات الكمية و لكن أيضاً على المعارف و الخبرات التي تكتسبها الشركة و العاملين، هذه الخبرات قد تفقد إذا لم يتم توثيقها بسبب الاستقالة و التقاعد و التنقلات. في هذا البحث تم تقديم منهجية من أجل الحصول على المعرفة أثناء تنفيذ عمليات الصيانة للأبنية الحكومية باستخدام BIM و تطبيق Dynamo بالاستعانة بالموديلات البارامترية التي تزودنا بإطار عالي المركزية من أجل تخزين المعلومات و باعتماد البرمجة البصرية (Visual Programming) التي توفر قدرات كبيرة من أجل معالجة و استخراج البيانات من نموذج BIM و معالجتها و تصنيفها إلى معارف تصميمية و تنفيذية و تشغيلية و تصديرها و إعادة ربط المعارف التصميمية مع عناصر البناء في نموذج BIM وصولاً إلى نموذج BIM موجه للصيانة و محمل بكافة المعارف التصميمية التي يحتاجها المصمم.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا