ترغب بنشر مسار تعليمي؟ اضغط هنا

441 - arxiv 2022 كتاب
النماذج اللغوية الكبيرة "المضبوطة للتعليمات" (التي تم ضبطها للاستجابة للتعليمات) قد أظهرت قدرة ملحوظة على التعميم بدون أي تدريب في مهام جديدة. ومع ذلك، فإنها تعتمد بشدة على بيانات التعليمات المكتوبة بواسطة الإنسان والتي تكون محدودة في الكمية والتنوع والإبداع، مما يعيق عملية التعميم للنموذج المضبوط. نقدم "Self-Instruct"، وهو إطار عمل لتحسين قدرات اتباع التعليمات لنماذج اللغة المدربة مسبقًا عن طريق الاستفادة من توليداتها الخاصة. يقوم خط أنابيبنا بتوليد عينات من التعليمات والإدخال والإخراج من نموذج اللغة، ثم يقوم بتقليصها قبل استخدامها لضبط النموذج الأصلي. باستخدام طريقتنا على GPT3 الأساسية، نظهر تحسينًا مطلقًا بنسبة 33٪ على نموذج Super-NaturalInstructions الأصلي، وهو متوافق مع أداء InstructGPT_001، والذي يتم تدريبه باستخدام بيانات مستخدم خاصة وتعليمات بشرية. لتقييم أعمق، نحن نضع مجموعة من التعليمات المكتوبة من قبل خبراء للمهام الجديدة، ونظهر من خلال التقييم البشري أن ضبط GPT3 باستخدام Self-Instruct يفوق استخدام مجموعات بيانات التعليمات العامة الموجودة حاليًا بفارق كبير، ولا يترك سوى فجوة بنسبة 5٪ خلف InstructGPT_001. يوفر Self-Instruct طريقة تقريبًا خالية من التعليقات لمزامنة نماذج اللغة المدربة مسبقًا مع التعليمات، ونحن نطلق مجموعة بيانات اصطناعية كبيرة لتسهيل الدراسات المستقبلية حول ضبط التعليمات.
يأتي تلخيص الحوار مع تحديات خاصة به على عكس تلخيص الأخبار أو المقالات العلمية. في هذا العمل، نستكشف أربعة تحديات مختلفة لهذه المهمة: التعامل مع أجزاء من الحوار والتمييز بين المتحدثين المتعددين، وفهم النفي، والمنطق حول الوضع، وفهم اللغة غير الرسمية. باستخدام نموذج لغة متسلسل مدرب مسبقا، نستكشف محل استبدال اسم المتكلم، وإبراز نطاق النفي، والتعلم المتعدد المهام مع المهام ذات الصلة، وإحصاء البيانات داخل المجال.تظهر تجاربنا أن تقنياتنا المقترحة تحسن أداء الملخصات، وتتفوق على نظم أساسية قوية.
قامت الأبحاث الحديثة بالتحقيق في Quantum NLP، تصميم الخوارزميات التي تعالج اللغة الطبيعية في أجهزة الكمبيوتر الكمومية، وكذلك الخوارزميات الملهمة الكمومية التي تحسن أداء NLP على أجهزة الكمبيوتر الكلاسيكية.في هذا الاستطلاع، نراجع الأساليب التمثيلية عند تقاطعات NLP والفيزياء الكمومية في السنوات العشر الماضية، مما يصنفها وفقا لاستخدام نظرية الكم، والأهداف اللغوية التي يتم تصميمها، والتطبيق المصب.تنتهي مراجعة الأدبيات بمناقشة حول العوامل الرئيسية للنجاح الذي حققه العمل الحالي، وكذلك التحديات المقبلة، بهدف فهم أفضل الوعود والمزيد من الاتجاهات.
غالبا ما يكون لدى السياسيين جداول أعمال أساسية عند الرد على الأحداث.تعكس الحجج في سياقات الأحداث المختلفة مجموعة متسقة إلى حد ما من جدول أعمال كيان معين.على الرغم من التطورات الأخيرة في نماذج اللغة المحددة مسبقا، فإن هذه التمثيلات النصية غير مصممة لا لتقاط مثل هذه الأنماط الدقيقة.في هذه الورقة، نقترح نموذج قارئ ترخيص يتكون من وحدات التشفير والملحن، والتي تلتقط هذه المعلومات وتزود هذه المعلومات لتوليد تمثيلات أكثر فعالية للكيانات والقضايا والأحداث.هذه التمثيلات محكوم علي تغريدات، البيانات الصحفية، والقضايا، والمقالات الإخبارية، والكيانات المشاركة.يعالج النموذج لدينا العديد من المستندات في وقت واحد ويولد تمثيلات مؤلفة للحصول على كيانات متعددة على العديد من القضايا أو الأحداث.من خلال التحليل التجريبي النوعي والكمي، نوضح أن هذه التمثيلات ذات مغزى وفعال.
مطلوبة كميات كبيرة من العمل لتنظيف مجموعات كبيرة من الكتب الرقمية لتحليل NLP، بسبب وجود أخطاء في النص الممسوح ضوئيا ووجود أحجام مكررة في كورسا. في هذه الورقة، نعتبر مسألة deCuplication في وجود أخطاء التعرف على الأحرف البصرية (OCR). نقدم طرق للتعامل م ع هذه الأخطاء، والتي تم تقييمها على مجموعة من 19347 نصية من مشاريع Gutenberg DataSet و 96،635 نصية من مكتبة Hathitrest. نوضح أن التحسينات في النماذج اللغوية الآن تمكن الآن من اكتشاف وأصحام أخطاء التعرف الضوئي على الحروف دون النظر في صورة المسح نفسه. توفر التناقضات التي عثرت عليها محاذاة أزواج من عمليات فحص نفس العمل الأساسي من نفس البيانات التدريبية لإنشاء نماذج للكشف عن الأخطاء وتصحيحها. نحدد الإصدار الكنسي لكل من الكتب 17،136 مرارا وتكرارا من الفحص من 58888 يوم. أخيرا، نحقق في طرق الكشف عن الأخطاء وتصحيحها في نصوص نسخة واحدة. نظهر أنه في المتوسط، تقوم طريقةنا بتصحيح أكثر من ستة أضعاف العديد من الأخطاء كما تقدم. كما نقدم تحليلا مثيرا للاهتمام بشأن العلاقة بين جودة المسح والعوامل الأخرى مثل الموقع والنشر.
معظم الوقت، عند التعامل مع مهمة معينة لمعالجة اللغة الطبيعية، تتم مقارنة الأنظمة على أساس الإحصاءات العالمية مثل الاستدعاء والدقة ودرجة F1، وما إلى ذلك، بينما توفر هذه الدرجات فكرة عامة عن سلوك هذه الأنظمة، إنهم يتجاهلون جزءا رئيسيا من المعلومات التي يمكن أن تكون مفيدة لتقييم التقدم المحرز والتحديات المتبقية المتميزة: الصعوبة النسبية في حالات الاختبار. لمعالجة هذا القصور، نقدم فكرة التقييم التفاضلي الذي يحدد فعليا التقسيم العملي من الحالات في صناديق أكثر صعوبة تدريجيا من خلال الاستفادة من التنبؤات التي قدمتها مجموعة من الأنظمة. تمكننا مقارنة الأنظمة على طول صناديق الصعوبة هذه أن تنتجنا تحليلا مدققا لأسعارها النسبية، والتي نوضحها على حالتي الاستخدام: مقارنة بين النظم المشاركة في مهمة تصنيف النص متعدد الملصقات (CLF EHENGE 2018 ICD-10 ICD-10 )، ومقارنة النماذج العصبية المدربة للكشف عن الكيانات الطبية الحيوية (مجموعة بيانات علاقات الأمراض الكيميائية الثنائية الطبيوم الكيميائية).
دقة Aquerence هي مفتاح العديد من مهام معالجة اللغة الطبيعية، لكنها غير مستكشفة نسبيا في معالجة لغة الإشارة. في لغات موقعة، تستخدم الفضاء في المقام الأول لتحديد المرجع. لن يقوم حل دقة Aquerence للغات الموقعة فقط بتمكين أنظمة معالجة لغة الإشارة عالية ا لمستوى، بل تقوم أيضا بتعزيز فهمنا للغة في طرائق مختلفة والمراجع الموجودة، وهي مشاكل رئيسية في دراسة اللغة المحددة. في هذه الورقة، نحن: (1) تقديم دقة COMARCALE الموقعة (SCR)، تحديا جديدا لنمذجة Aquerence وعلاج لغة الإشارة؛ (2) جمع وجعة مشروحة من لغة الإشارة الألمانية مع ملصقات ذهبية ل Taquerence جنبا إلى جنب مع برنامج شرح للمهمة؛ (3) استكشاف ميزات لفتة اليد، الإيقاعي، والعقارات المكانية الموجودة والمضي قدما لاقتراح مجموعة من الاستدلال المباشرة المباشرة ونماذج غير مخالفة للمهمة؛ (4) طرح عدة مقترحات حول طرق معالجة تعقيدات هذا التحدي بفعالية.
تحذير: تحتوي هذه المقالة على محتويات قد تسيء إلى القراء. الاستراتيجيات التي تنشر ضجيجا متعمدا في نص عند نشرها شائعة في فضاء الإنترنت، وأحيانا تهدف إلى السماح لبعض أفراد المجتمع فقط بفهم الدلالات الحقيقية. في هذه الورقة، نستكشف الغرض من هذه الإجراءا ت عن طريق تصنيفها إلى حيل و ميمز وفلاتر والأكواد، وتنظيم الاستراتيجيات اللغوية المستخدمة في كل غرض. من خلال ذلك، نحدد أن يتم إجراء هذه الاستراتيجيات من قبل مؤلفين لأغراض متعددة، فيما يتعلق بوجود أصحاب المصلحة مثل الأقران والآخرين.ونحلل أخيرا كيفية ظهور هذه الاستراتيجيات بشكل مختلف في كل ظرف من الظروف، إلى جانب الأمثلة المصاحبة للتصنيف الموحد.
لمعالجة أزمة تلوح في الأفق من التقييم غير المقصود للتعرف على الكيان المسمى، نقترح إرشادات وإدخال SEQSCORE، حزمة البرمجيات لتحسين استنساخ.المبادئ التوجيهية التي نقترحها هي بسيطة للغاية ومركز حول الشفافية فيما يتعلق بكيفية تشفير القطاعات وسجلها.نوضح أن ه على الرغم من البساطة الواضحة لتقييم NER، فإن الاختلافات غير المبلغ عليها في إجراءات التهديف يمكن أن تؤدي إلى تغييرات في الدرجات التي تعد كل من حجمها ملحوظا ومهمة إحصائية.وصفنا Seqcore، الذي يتناول العديد من القضايا التي تسبب فشل النسخ المتماثل.
نحن نتعامل مع استجابة سؤال متعددة الاختيار.الحصول على معرفة المنطقية ذات الصلة بالسؤال والخيارات يسهل الاعتراف بالإجابة الصحيحة.ومع ذلك، تعاني نماذج التفكير الحالية من الضوضاء في المعرفة المستردة.في هذه الورقة، نقترح طريقة ترميز جديدة قادرة على إجراء الاعتراض والتصفية الناعمة.وهذا يساهم في حصاد وامتصاص المعلومات التمثيلية مع تدخل أقل من الضوضاء.نقوم بتجربة commonsenseqa.توضح النتائج التجريبية أن طريقتنا تعطي تحسينات كبيرة ومتسقة مقارنة بخدمات الأساس والقاعدة القائمة على روبرتا وألبرت.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا