ترغب بنشر مسار تعليمي؟ اضغط هنا

مهمة تقصير صورة المقال الإخباري يهدف إلى توليد تعليق وصفية وغنية بالمعلومات لصور المقالة الإخبارية.على عكس التسميات التوضيحية التقليدية التي تصف ببساطة محتوى الصورة بمصطلحات عامة، تتبع تعليق الصور الإخبارية إرشادات صحفية وتعتمد اعتمادا كبيرا على الكي انات المسماة لوصف محتوى الصورة، غالبا ما يرسم السياق من المقالة بأكملها.في هذا العمل، نقترح نهجا جديدا لهذه المهمة، بدافع من إرشادات التسمية التوضيحية التي يتبعها الصحفيون.نهجنا، المبادئ التوجيهية الصحفية تدرك صورة أخبار التسمية التوضيحية (Joganic)، ترفد بنية التسميات التوضيحية لتحسين جودة الجيل وتوجيه تصميم التمثيل الخاص بنا.النتائج التجريبية، بما في ذلك دراسات التفصيل التفصيلية، على مجموعة من مجموعات بيانات واسعة النطاق للجمهورية على نطاق واسع أن جوجاني يتفوق بشكل كبير على الأساليب الحديثة على حد سواء على جيل التسمية التوضيحية ومقاييس الكيانية المسمى.
من المتوقع أن تحتوي أنظمة التسمية على الصور القدرة على الجمع بين المفاهيم الفردية عند وصف المشاهد مع مجموعات المفاهيم التي لم يتم ملاحظتها أثناء التدريب. على الرغم من التقدم الكبير في تقسيم الصور بمساعدة إطار الجيل التلقائي التلقائي، تفشل النهج الحال ية في التعميم بشكل جيد إلى مجموعات مفهوم جديدة. نقترح إطارا جديدا يدور حول التحقيق في العديد من مثيلات تدريب التسمية التوضيحية في الصورة المماثلة (استرجاع)، وأداء المناسبات التناظرية على الكيانات ذات الصلة في النماذج الأولية المستردة (القياس)، وتعزيز عملية التوليد بنتائج المنطق (التكوين). تعزز طريقةنا نموذج الجيل عن طريق الإشارة إلى الحالات المجاورة في التدريب المحدد لإنتاج مجموعات مفهوم جديدة في التسميات التوضيحية المولدة. نقوم بإجراء تجارب على معايير تقسيم الصور المستخدمة على نطاق واسع. تحقق النماذج المقترحة تحسنا كبيرا على أساس الأساس المقارنة على كل من مقاييس التقييم المرتبطة بالتكوين ومقاييس تقسيم الصور التقليدية.
تظهر هذه الورقة أن عصير التفاح، مقياس التقييم التقليدي لوصف الصورة، لا يعمل بشكل صحيح على مجموعات البيانات حيث يكون عدد الكلمات في الجملة أكبر بكثير من تلك الموجودة في مجموعة بيانات التسميات التوضيحية MS COCO.نظهر أيضا أن CIDER-D لديه أداء يعوقه عدم وجود جمل مرجعية متعددة والتباين العالي لطول الجملة.لتجاوز هذه المشكلة، نقدم Cider-R، الذي يحسن CIDER-D، مما يجعله أكثر مرونة في التعامل مع مجموعات البيانات ذات تباين طول الجملة.نوضح أن عصير التفاح هو أكثر دقة وأقرب من الحكم الإنساني من عصير التفاح.Cider-R هو أكثر قوة فيما يتعلق بعدد المراجع المتاحة.تكشف نتائجنا أن استخدام تدريب التسلسل الحرج الذاتي لتحسين عصير التفاح - يولد تعليقا وصفيا.في المقابل، عند تحسين CIDER-D، يميل طول التسميات التوضيحية التي تم إنشاؤها إلى أن تكون مشابهة للطول المرجعي.ومع ذلك، تكرر النماذج أيضا عدة مرات نفس الكلمة لزيادة طول الجملة.
يؤثر البحث على الإنترنت على إدراك الناس في العالم، وبالتالي فإن التخفيف من التحيزات في نتائج البحث ونماذج التعلم العادلة أمر حتمي للجيدة الاجتماعية.نحن ندرس تحيز جنساني فريد من نوعه في البحث في الصورة في هذا العمل: غالبا ما تكون صور البحث في كثير من الأحيان عن النوع الاجتماعي لاستفسارات اللغة الطبيعية المحايدة بين الجنسين.نحن تشخيص طرازات بحث عن الصور النموذجية، النموذج المتخصص المدرب على مجموعات البيانات داخل المجال ونموذج التمثيل المعمم مسبقا على صورة واسعة بيانات النصية عبر الإنترنت.كلا النموذجين يعانون من التحيز بين الجنسين الحاد.لذلك، نقدم اثنين مناهج ديوان رواية: طريقة أخذ العينات المعدة المعالجة لمعالجة قضية عدم التوازن بين الجنسين للنماذج التدريبية، وميزة ما بعد المعالجة هي قاعدة أسلوب لقطة على المعلومات المتبادلة إلى تمثيلات Debias متعددة الوسائط للنماذج المدربة مسبقا.تجارب واسعة على معايير MS-COCO و FLICKR30K تظهر أن أساليبنا تقلل بشكل كبير من التحيز بين الجنسين في نماذج البحث عن الصور.
العاطفة والتعاطف هي أمثلة على الصفات البشرية التي تفتقر إلى العديد من التفاعلات البشرية. الهدف من عملنا هو توليد حوار جذاب في صورة مشتركة من المستخدمين مع زيادة العاطفة والتعاطف مع تقليل النواتج غير اللائق أو الهجومية الاجتماعية. ونحن نفرج عن الصورة العصبية التعليق مع مجموعة بيانات التعاطف (لطيفة) تتكون من ما يقرب من مليوني صورة وتعليقات مقابلة للإنسان، ومجموعة من التعليقات الشروحية البشرية والأداء الأساسي في مجموعة من النماذج. في الموقف عن الاعتماد على المشاعر المسمى يدويا، نستخدم أيضا تمثيل اللغوي الذي تم إنشاؤه تلقائيا كمصدر للملصقات الخاضعة للإشراف. بناء على هذه التعليقات التوضيحية، نحدد مهامين مختلفة لمجموعة البيانات الجميلة. بعد ذلك، نقترح نموذجا روايا قبل التدريب - النمذجة تؤثر على جيل للحصول على تعليقات الصورة (السحر) - والتي تهدف إلى توليد تعليقات للصور، مشروطة على التمثيل اللغوي الذي التقاط النمط والتأثير، والمساعدة في توليد أكثر تعاطفا وعاطفيا وجذابا و تعليقات اجتماعية مناسبة. باستخدام هذا النموذج، نحقق الأداء الحديث في واحدة من مهامنا الجميلة. تظهر التجارب أن النهج يمكن أن يولد المزيد من التعليقات التي تشبه الإنسان وإشراكها للإشراك.
نقترح أن نقترح Captioner أخبار البصرية، وهو نموذج كيائن كيائن لمهمة تقسيم صورة الأخبار. نقدم أيضا Visual News، وهو معيار واسع النطاق يتكون من أكثر من مليون صورة إخبارية إلى جانب المقالات الإخبارية المرتبطة، وتستياؤ الصور، ومعلومات المؤلف، والبيانات ا لوصفية الأخرى. على عكس مهمة تقسيم الصور القياسية، تصور الصور الأخبار المواقف التي يكون فيها الأشخاص والمواقع والأحداث ذات أهمية قصوى. يمكن أن تجمع طريقةنا المقترحة بشكل فعال بين الميزات المرئية والنصية لتوليد التسميات التوضيحية مع معلومات أكثر ثراء مثل الأحداث والكيانات. وبشكل أكثر تحديدا، تم تصميمها على بنية المحولات، يتم تزويد نموذجنا بمزيد من المجهز بتقنيات الانصهار متعددة الوسائط على الرواية وآليات الاهتمام، والتي تم تصميمها لتوليد كيانات اسمه أكثر دقة. تستخدم طريقتنا معلمات أقل بكثير مع تحقيق نتائج تنبؤ أفضل قليلا من الأساليب المنافسة. توضح مجموعة بيانات الأخبار المرئية الأكبر والأكثر تنوعا التحديات المتبقية في تصوير الصور الإخبارية.
تعتمد مطورو نماذج جيل النص على مقاييس التقييم الآلي كمستقلة للتقييمات اليدوية البطيئة والمكلفة. ومع ذلك، كافحت مقاييس تقسيم الصور لإعطاء تقديرات مستفادة دقيقة للنجاح الدلالي والبراغماتي لنص الإخراج. نحن نتطلع إلى هذا الضعف عن طريق إدخال أول متري تعلم القيادة المستفادة لتقييم أوصاف الصورة. نهجنا مستوحى من النظريات الحاسوبية للتخلص من أهداف المعلومات باستخدام الاتساق. نقدم مجموعة بيانات من الصورة - وصف أزواج المشروح مع علاقات الاتساق. ثم قمنا بتدريب مقياس عمل متماسك على مجموعة فرعية من مجموعة بيانات التسميات المفاهيمية وقياس فعاليتها --- قدرتها على التنبؤ بالتصنيفات البشرية للتسميات التوضيحية الإنتاجية --- في مجموعة اختبار تتكون من صور خارج المجال. نوضح معامل ارتباط كيندل كيندل كيندل لتقسيطنا المقترح مع الأحكام الإنسانية لنتائج عدد من نماذج تواتير التسمية التوضيحية لمواصلة التماسك الواحد عند مقارنتها بالعديد من المقاييس الأخرى بما في ذلك المقاييس المستفادة المقترحة مؤخرا مثل bleurt و bertscore.
في هذه الورقة، نقدم العمل في التقدم الذي يهدف إلى تطوير مجموعة بيانات جديدة للصورة مع كائنات مشروح. تتكون Corpus Image متعددة اللغات من طبولوجيا الكائنات المرئية (بناء على WordNet) ومجموعة من الصور ذات الصلة بشكل موضوعي المشروح مع أقنعة تجزئة وفئات ا لكائنات. حددنا 277 فصولا مهيمنة و 1،037 فصالا من الوالدين والسماء، وتجميعها إلى 10 مجالات مواضيعية مثل الرياضة والطب والتعليم والغذاء والأمن، وما إلى ذلك بالنسبة للفصول المختارة يتم إجراء بحث على شبكة الإنترنت واسعة النطاق من أجل ترجمة مجموعة كبيرة من الصور ذات حقوق الطبع والنشر عالية الجودة. إن تركيز الورق هو بروتوكول التوضيح الذي أنشأناه لتسهيل عملية التوضيحية: ontology للأشياء المرئية والاتفاقيات للاطلاع على الصورة وتجزئة الكائنات. تم تصميم DataSet لكل من تصنيف الصور والكشف عن الكائن والتجزئة الدلالي. بالإضافة إلى ذلك، سيتم تزويد التعليقات التوضيحية للكائن بأوصاف متعددة اللغات باستخدام Wordnets المتاحة بحرية.
في السنوات الأخيرة، تم استخدام ميم يجمع بين الصورة والنص على نطاق واسع في وسائل التواصل الاجتماعي، والميمات هي واحدة من أكثر أنواع المحتوى شعبية المستخدمة في حملات التضاعف عبر الإنترنت.في هذه الورقة، يتم تلخيص دراستنا حول اكتشاف تقنيات الإقناع في الن صوص والصور في مهمة Semeval-2021.بالنسبة للكشف عن تكنولوجيا الدعاية في النص، نقترح نموذج مزيج من كل من ألبرت ونص سي إن إن تصنيف النص، بالإضافة إلى نموذج وضع تسلسل متعدد المهام متعدد المهام لاستغلال التغطية التكنولوجية للدعاية.بالنسبة لمهمة تصنيف Meme المشاركة في فهم النص واستخراج الميزة البصرية، قمنا بتصميم نموذج قناة متوازية مقسمة إلى قنوات نصية وصورة.حققت طريقتنا أداء جيدا بشأن المجموع الفرعي 1 و 3. درجات مايكرو F1 من 0.492، 0.091، و 0.446 التي تحققت في مجموعات الاختبار من المهارات الفرعية الثلاثة المرتبة الثانية عشرة، 7، وحتى 11، على التوالي، وكلها أعلى من الأساسنموذج.
تحسنت تقسيم الصور التلقائي بشكل كبير خلال السنوات القليلة الماضية، لكن المشكلة بعيدة عن حلها، حيث لا تزال حالة من النماذج الفنية غالبا ما تنتج توضيحات منخفضة الجودة عند استخدامها في البرية. في هذه الورقة، نركز على مهمة تقدير الجودة (QE) للحصول على تع ليق الصور، والتي تحاول طراز جودة التسمية التوضيحية من منظور إنساني و * بدون * الوصول إلى مراجع الحقيقة الأرضية، بحيث يمكن تطبيقها في وقت التنبؤ للكشف عن التسميات التوضيحية منخفضة الجودة المنتجة على * الصور غير المرئية سابقا *. بالنسبة لهذه المهمة، نقوم بتطوير عملية تقييم بشرية تقوم بجمع التعليقات التوضيحية الشعوية من المستخدمين من مستخدمي الجماعة الجماعية، والتي يتم استخدامها بعد ذلك لجمع مجموعة بيانات كبيرة الحجم تمتد أكثر من 600 كيلو بايت تصنيفات جودة التسمية التوضيحية. ثم صرفها بعناية جودة التصنيفات التي تم جمعها وإنشاء نماذج أساسية لهذه المهمة الجديدة في QE. أخيرا، سنقوم بزيادة جمع التعليقات التوضيحية ذات جودة التسمية التوضيحية الجميلة من الدراسات المدربة، واستخدامها لإظهار أن نماذج QE التي تم تدريبها على التصنيفات الخشنة يمكن أن تكتشف بشكل فعال وتصفية التسميات التوضيحية ذات الجودة المنخفضة الجودة، وبالتالي تحسين تجربة المستخدم من أنظمة التسمية التوضيحية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا