تتميز الشبكة الوحدات العصبية (NMN) بالفهم القوي والتركيبية بفضل وحدات العصبية المصنوعة بشكل يدوي مع القدرة على التفكير بالمسافات المتعددة. ومع ذلك، يعاني معظم NMNs من عيوبان حاسمتان: 1) التكبير: تجعل الوحدة المخصصة للوظيفة مشوشا عند التكبير إلى مجموعة أكبر من الوظائف في المهام المعقدة؛ 2) التطبيقية: تجعل سجل الوحدات المحدد مسبقا بشكل صلب من الصعب التطبيق على الوظائف الغير مرئية في مهام / دول مختلفة. لتصميم بنية شبكة NMN أقوى للاستخدام العملي، نقترح Meta Module Network (MMN) محورة على وحدة التحليل المتطورة، والتي يمكنها استيعاب وصفات الوظيفة وتحول إلى وحدات مختلفة بشكل ديناميكي. ثم تتم دمج الوحدات الفردية في برنامج تنفيذي للتفكير البصري المعقد، والذي يورث الفهم القوي والتركيبية ل NMN. مع هذا الآلية التطبيقية المرنة، يتم ارث المعلمات من الوحدة المتطورة المركزية للوحدات الفردية، والحفاظ على نفس معدل الصعوبة للنموذج عندما ينمو مجموعة الوظائف، مما يعد بأمانة أفضل للتكبير. في الوقت نفسه، حيث تم ترميز الوظائف في مساحة التضمين، يمكن تمثيل الوظائف الغير مرئية بسهولة على أساس تشابهها الهيكلي مع الوظائف المرئية مسبقا، مما يضمن أفضل تطبيقية. تأكد التجارب على بيانات GQA و CLEVR من التفوق الذي تمتلكه MMN على تصميمات NMN الحديثة. كما تثبت التجارب الصناعية على الوظائف الغير مرئية المحجوزة من بيانات GQA قوة التطبيقية القوية ل MMN. تم إصدار الرمز والنموذج في Github https://github.com/wenhuchen/Meta-Module-Network.
Neural Module Network (NMN) exhibits strong interpretability and compositionality thanks to its handcrafted neural modules with explicit multi-hop reasoning capability. However, most NMNs suffer from two critical drawbacks: 1) scalability: customized module for specific function renders it impractical when scaling up to a larger set of functions in complex tasks; 2) generalizability: rigid pre-defined module inventory makes it difficult to generalize to unseen functions in new tasks/domains. To design a more powerful NMN architecture for practical use, we propose Meta Module Network (MMN) centered on a novel meta module, which can take in function recipes and morph into diverse instance modules dynamically. The instance modules are then woven into an execution graph for complex visual reasoning, inheriting the strong explainability and compositionality of NMN. With such a flexible instantiation mechanism, the parameters of instance modules are inherited from the central meta module, retaining the same model complexity as the function set grows, which promises better scalability. Meanwhile, as functions are encoded into the embedding space, unseen functions can be readily represented based on its structural similarity with previously observed ones, which ensures better generalizability. Experiments on GQA and CLEVR datasets validate the superiority of MMN over state-of-the-art NMN designs. Synthetic experiments on held-out unseen functions from GQA dataset also demonstrate the strong generalizability of MMN. Our code and model are released in Github https://github.com/wenhuchen/Meta-Module-Network.
Humans learn to solve tasks of increasing complexity by building on top of previously acquired knowledge. Typically, there exists a natural progression in the tasks that we learn - most do not require completely independent solutions, but can be brok
In this paper, we propose the Broadcasting Convolutional Network (BCN) that extracts key object features from the global field of an entire input image and recognizes their relationship with local features. BCN is a simple network module that collect
Abstract reasoning refers to the ability to analyze information, discover rules at an intangible level, and solve problems in innovative ways. Ravens Progressive Matrices (RPM) test is typically used to examine the capability of abstract reasoning. T
Recently, studies of visual question answering have explored various architectures of end-to-end networks and achieved promising results on both natural and synthetic datasets, which require explicitly compositional reasoning. However, it has been ar
Reasoning about images/objects and their hierarchical interactions is a key concept for the next generation of computer vision approaches. Here we present a new framework to deal with it through a visual hierarchical context-based reasoning. Current