حققت النماذج المدربة مسبقا للمحولات، مثل بيرت، نتائج رائعة بشأن فهم القراءة في الآلة. ومع ذلك، نظرا لقيود طول الترميز (E.G.، 512 Tokenspece)، عادة ما يتم تقسيم وثيقة طويلة إلى قطع متعددة يتم قراءتها بشكل مستقل. ينتج عن أن حقل القراءة يقتصر على القطع الفردية دون تعاون المعلومات لفهم قراءة آلات المستندات الطويلة. لمعالجة هذه المشكلة، نقترح ROR، وهي طريقة للقراءة للقراءة، والتي تقوم بتوسيع حقل القراءة من قطعة إلى المستند. على وجه التحديد، يتضمن ROR قارئ قطعة وقارئ مستند. السابق يتوقع أولا مجموعة من الإجابات الإقليمية لكل قطعة، والتي يتم ضغطها بعد ذلك في إصدارا كبيرا مكثفا من المستند الأصلي، مما يضمن ترميزه مرة واحدة. يتنبأ الأخير كذلك بالإجابات العالمية من هذه الوثيقة المكثفة. في النهاية، يتم استخدام استراتيجية التصويت إلى إجمالي الإجابات الإقليمية والعالمية للتنبؤ النهائي. تثبت تجارب واسعة على معيارين Quac و Triviaqa فعالية ROR للحصول على قراءة المستندات الطويلة. والجدير بالذكر أن ROR يحتل المرتبة الأولى على المتصدرين Quac (https://quac.ai/) في وقت التقديم (17 مايو، 2021).
Transformer-based pre-trained models, such as BERT, have achieved remarkable results on machine reading comprehension. However, due to the constraint of encoding length (e.g., 512 WordPiece tokens), a long document is usually split into multiple chunks that are independently read. It results in the reading field being limited to individual chunks without information collaboration for long document machine reading comprehension. To address this problem, we propose RoR, a read-over-read method, which expands the reading field from chunk to document. Specifically, RoR includes a chunk reader and a document reader. The former first predicts a set of regional answers for each chunk, which are then compacted into a highly-condensed version of the original document, guaranteeing to be encoded once. The latter further predicts the global answers from this condensed document. Eventually, a voting strategy is utilized to aggregate and rerank the regional and global answers for final prediction. Extensive experiments on two benchmarks QuAC and TriviaQA demonstrate the effectiveness of RoR for long document reading. Notably, RoR ranks 1st place on the QuAC leaderboard (https://quac.ai/) at the time of submission (May 17th, 2021).
References used
https://aclanthology.org/
Adversarial training (AT) as a regularization method has proved its effectiveness on various tasks. Though there are successful applications of AT on some NLP tasks, the distinguishing characteristics of NLP tasks have not been exploited. In this pap
Machine reading comprehension is a challenging task especially for querying documents with deep and interconnected contexts. Transformer-based methods have shown advanced performances on this task; however, most of them still treat documents as a fla
This research is based on deconstructing the mechanism of the hidden system of term, in its analytical applications on the two modes (virility / femininity) in Al-Ghathami's cultural criticism. In order to reveal the problems of this monetary term th
Implicit event argument extraction (EAE) is a crucial document-level information extraction task that aims to identify event arguments beyond the sentence level. Despite many efforts for this task, the lack of enough training data has long impeded th
In this paper, we present a new verification style reading comprehension dataset named VGaokao from Chinese Language tests of Gaokao. Different from existing efforts, the new dataset is originally designed for native speakers' evaluation, thus requir