أوراق بحثية, رسائل ماجستير ودكتوراه حول معالجة

التعليمات الذاتية: محاذاة نموذج اللغة مع التعليمات الذاتية

441 - arxiv 2022 كتاب

النماذج اللغوية الكبيرة "المضبوطة للتعليمات" (التي تم ضبطها للاستجابة للتعليمات) قد أظهرت قدرة ملحوظة على التعميم بدون أي تدريب في مهام جديدة. ومع ذلك، فإنها تعتمد بشدة على بيانات التعليمات المكتوبة بواسطة الإنسان والتي تكون محدودة في الكمية والتنوع والإبداع، مما يعيق عملية التعميم للنموذج المضبوط. نقدم "Self-Instruct"، وهو إطار عمل لتحسين قدرات اتباع التعليمات لنماذج اللغة المدربة مسبقًا عن طريق الاستفادة من توليداتها الخاصة. يقوم خط أنابيبنا بتوليد عينات من التعليمات والإدخال والإخراج من نموذج اللغة، ثم يقوم بتقليصها قبل استخدامها لضبط النموذج الأصلي. باستخدام طريقتنا على GPT3 الأساسية، نظهر تحسينًا مطلقًا بنسبة 33٪ على نموذج Super-NaturalInstructions الأصلي، وهو متوافق مع أداء InstructGPT_001، والذي يتم تدريبه باستخدام بيانات مستخدم خاصة وتعليمات بشرية. لتقييم أعمق، نحن نضع مجموعة من التعليمات المكتوبة من قبل خبراء للمهام الجديدة، ونظهر من خلال التقييم البشري أن ضبط GPT3 باستخدام Self-Instruct يفوق استخدام مجموعات بيانات التعليمات العامة الموجودة حاليًا بفارق كبير، ولا يترك سوى فجوة بنسبة 5٪ خلف InstructGPT_001. يوفر Self-Instruct طريقة تقريبًا خالية من التعليقات لمزامنة نماذج اللغة المدربة مسبقًا مع التعليمات، ونحن نطلق مجموعة بيانات اصطناعية كبيرة لتسهيل الدراسات المستقبلية حول ضبط التعليمات.

معالجة اللغات الطبيعية ChatGPT نماذج اللغة الضخمة

مجموعة حيّل لتطوير أنظمة تلخيص الحوارات

783 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

يأتي تلخيص الحوار مع تحديات خاصة به على عكس تلخيص الأخبار أو المقالات العلمية. في هذا العمل، نستكشف أربعة تحديات مختلفة لهذه المهمة: التعامل مع أجزاء من الحوار والتمييز بين المتحدثين المتعددين، وفهم النفي، والمنطق حول الوضع، وفهم اللغة غير الرسمية. باستخدام نموذج لغة متسلسل مدرب مسبقا، نستكشف محل استبدال اسم المتكلم، وإبراز نطاق النفي، والتعلم المتعدد المهام مع المهام ذات الصلة، وإحصاء البيانات داخل المجال.تظهر تجاربنا أن تقنياتنا المقترحة تحسن أداء الملخصات، وتتفوق على نظم أساسية قوية.

معالجة اللغات الطبيعية الذكاء الاصطناعي التعلم العميق أنظمة الحوار

معالجة اللغة الطبيعية تلبي الفيزياء الكمومية: مسح وتصنيف

289 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

قامت الأبحاث الحديثة بالتحقيق في Quantum NLP، تصميم الخوارزميات التي تعالج اللغة الطبيعية في أجهزة الكمبيوتر الكمومية، وكذلك الخوارزميات الملهمة الكمومية التي تحسن أداء NLP على أجهزة الكمبيوتر الكلاسيكية.في هذا الاستطلاع، نراجع الأساليب التمثيلية عند تقاطعات NLP والفيزياء الكمومية في السنوات العشر الماضية، مما يصنفها وفقا لاستخدام نظرية الكم، والأهداف اللغوية التي يتم تصميمها، والتطبيق المصب.تنتهي مراجعة الأدبيات بمناقشة حول العوامل الرئيسية للنجاح الذي حققه العمل الحالي، وكذلك التحديات المقبلة، بهدف فهم أفضل الوعود والمزيد من الاتجاهات.

language processing meets processing meets quantum تجمع معالجة اللغة تجهيز التجهيز الكم. صناعة حمض الفوسفور

فهم السياسة عن طريق معالجة الخطاب السياقي

295 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

غالبا ما يكون لدى السياسيين جداول أعمال أساسية عند الرد على الأحداث.تعكس الحجج في سياقات الأحداث المختلفة مجموعة متسقة إلى حد ما من جدول أعمال كيان معين.على الرغم من التطورات الأخيرة في نماذج اللغة المحددة مسبقا، فإن هذه التمثيلات النصية غير مصممة لا لتقاط مثل هذه الأنماط الدقيقة.في هذه الورقة، نقترح نموذج قارئ ترخيص يتكون من وحدات التشفير والملحن، والتي تلتقط هذه المعلومات وتزود هذه المعلومات لتوليد تمثيلات أكثر فعالية للكيانات والقضايا والأحداث.هذه التمثيلات محكوم علي تغريدات، البيانات الصحفية، والقضايا، والمقالات الإخبارية، والكيانات المشاركة.يعالج النموذج لدينا العديد من المستندات في وقت واحد ويولد تمثيلات مؤلفة للحصول على كيانات متعددة على العديد من القضايا أو الأحداث.من خلال التحليل التجريبي النوعي والكمي، نوضح أن هذه التمثيلات ذات مغزى وفعال.

contextualized discourse processing discourse processing understanding politics معالجة خطاب السياق معالجة الخطاب فهم السياسة صناعة حمض الفوسفور المزيد..

تنظيف الكتب القذرة: معالجة ما بعد التعرف عبر الإنترنت للنصوص الممسوحة ضوئيا سابقا

270 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

مطلوبة كميات كبيرة من العمل لتنظيف مجموعات كبيرة من الكتب الرقمية لتحليل NLP، بسبب وجود أخطاء في النص الممسوح ضوئيا ووجود أحجام مكررة في كورسا. في هذه الورقة، نعتبر مسألة deCuplication في وجود أخطاء التعرف على الأحرف البصرية (OCR). نقدم طرق للتعامل م ع هذه الأخطاء، والتي تم تقييمها على مجموعة من 19347 نصية من مشاريع Gutenberg DataSet و 96،635 نصية من مكتبة Hathitrest. نوضح أن التحسينات في النماذج اللغوية الآن تمكن الآن من اكتشاف وأصحام أخطاء التعرف الضوئي على الحروف دون النظر في صورة المسح نفسه. توفر التناقضات التي عثرت عليها محاذاة أزواج من عمليات فحص نفس العمل الأساسي من نفس البيانات التدريبية لإنشاء نماذج للكشف عن الأخطاء وتصحيحها. نحدد الإصدار الكنسي لكل من الكتب 17،136 مرارا وتكرارا من الفحص من 58888 يوم. أخيرا، نحقق في طرق الكشف عن الأخطاء وتصحيحها في نصوص نسخة واحدة. نظهر أنه في المتوسط، تقوم طريقةنا بتصحيح أكثر من ستة أضعاف العديد من الأخطاء كما تقدم. كما نقدم تحليلا مثيرا للاهتمام بشأن العلاقة بين جودة المسح والعوامل الأخرى مثل الموقع والنشر.

cleaning dirty books previously scanned texts processing for previously تنظيف الكتب القذرة الصور الممسوحة ضوئيا سابقا معالجة سابقا صناعة حمض الفوسفور المزيد..

التقييم التفاضلي: تحليل نوعي لسلوك نظام معالجة اللغة الطبيعي بناء على مقاومة البيانات للمعالجة

223 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

معظم الوقت، عند التعامل مع مهمة معينة لمعالجة اللغة الطبيعية، تتم مقارنة الأنظمة على أساس الإحصاءات العالمية مثل الاستدعاء والدقة ودرجة F1، وما إلى ذلك، بينما توفر هذه الدرجات فكرة عامة عن سلوك هذه الأنظمة، إنهم يتجاهلون جزءا رئيسيا من المعلومات التي يمكن أن تكون مفيدة لتقييم التقدم المحرز والتحديات المتبقية المتميزة: الصعوبة النسبية في حالات الاختبار. لمعالجة هذا القصور، نقدم فكرة التقييم التفاضلي الذي يحدد فعليا التقسيم العملي من الحالات في صناديق أكثر صعوبة تدريجيا من خلال الاستفادة من التنبؤات التي قدمتها مجموعة من الأنظمة. تمكننا مقارنة الأنظمة على طول صناديق الصعوبة هذه أن تنتجنا تحليلا مدققا لأسعارها النسبية، والتي نوضحها على حالتي الاستخدام: مقارنة بين النظم المشاركة في مهمة تصنيف النص متعدد الملصقات (CLF EHENGE 2018 ICD-10 ICD-10 )، ومقارنة النماذج العصبية المدربة للكشف عن الكيانات الطبية الحيوية (مجموعة بيانات علاقات الأمراض الكيميائية الثنائية الطبيوم الكيميائية).

التحقق والتحقق language processing system language processing task نظام معالجة اللغة صناعة حمض الفوسفور

توقيع القرار الأساسية

258 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

دقة Aquerence هي مفتاح العديد من مهام معالجة اللغة الطبيعية، لكنها غير مستكشفة نسبيا في معالجة لغة الإشارة. في لغات موقعة، تستخدم الفضاء في المقام الأول لتحديد المرجع. لن يقوم حل دقة Aquerence للغات الموقعة فقط بتمكين أنظمة معالجة لغة الإشارة عالية ا لمستوى، بل تقوم أيضا بتعزيز فهمنا للغة في طرائق مختلفة والمراجع الموجودة، وهي مشاكل رئيسية في دراسة اللغة المحددة. في هذه الورقة، نحن: (1) تقديم دقة COMARCALE الموقعة (SCR)، تحديا جديدا لنمذجة Aquerence وعلاج لغة الإشارة؛ (2) جمع وجعة مشروحة من لغة الإشارة الألمانية مع ملصقات ذهبية ل Taquerence جنبا إلى جنب مع برنامج شرح للمهمة؛ (3) استكشاف ميزات لفتة اليد، الإيقاعي، والعقارات المكانية الموجودة والمضي قدما لاقتراح مجموعة من الاستدلال المباشرة المباشرة ونماذج غير مخالفة للمهمة؛ (4) طرح عدة مقترحات حول طرق معالجة تعقيدات هذا التحدي بفعالية.

sign language processing signed coreference resolution معالجة لغة الإشارة توقيع القرار الأساسية صناعة حمض الفوسفور

Google-trickers، Yaminjeongeum، و Leetspeak: تصنيف تجريبي للنص المولّد من المستخدم الحاوي على ضجيج

379 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تحذير: تحتوي هذه المقالة على محتويات قد تسيء إلى القراء. الاستراتيجيات التي تنشر ضجيجا متعمدا في نص عند نشرها شائعة في فضاء الإنترنت، وأحيانا تهدف إلى السماح لبعض أفراد المجتمع فقط بفهم الدلالات الحقيقية. في هذه الورقة، نستكشف الغرض من هذه الإجراءا ت عن طريق تصنيفها إلى حيل و ميمز وفلاتر والأكواد، وتنظيم الاستراتيجيات اللغوية المستخدمة في كل غرض. من خلال ذلك، نحدد أن يتم إجراء هذه الاستراتيجيات من قبل مؤلفين لأغراض متعددة، فيما يتعلق بوجود أصحاب المصلحة مثل الأقران والآخرين.ونحلل أخيرا كيفية ظهور هذه الاستراتيجيات بشكل مختلف في كل ظرف من الظروف، إلى جانب الأمثلة المصاحبة للتصنيف الموحد.

معالجة اللغات الطبيعية تصنيف النصوص intentionally noisy user-generated noisy user-generated text intentionally noisy النص الفوضوي النص الضّاج المزيد..

SeqScore: معالجة الحواجز الموجهة إلى تقييم التعرف على الكيان المسمى

344 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

لمعالجة أزمة تلوح في الأفق من التقييم غير المقصود للتعرف على الكيان المسمى، نقترح إرشادات وإدخال SEQSCORE، حزمة البرمجيات لتحسين استنساخ.المبادئ التوجيهية التي نقترحها هي بسيطة للغاية ومركز حول الشفافية فيما يتعلق بكيفية تشفير القطاعات وسجلها.نوضح أن ه على الرغم من البساطة الواضحة لتقييم NER، فإن الاختلافات غير المبلغ عليها في إجراءات التهديف يمكن أن تؤدي إلى تغييرات في الدرجات التي تعد كل من حجمها ملحوظا ومهمة إحصائية.وصفنا Seqcore، الذي يتناول العديد من القضايا التي تسبب فشل النسخ المتماثل.

reproducible named entity addressing barriers كيان اسمه استنساخ معالجة الحواجز صناعة حمض الفوسفور

Winnowing Knowleds for متعدد الخيارات سؤال الرد

141 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

نحن نتعامل مع استجابة سؤال متعددة الاختيار.الحصول على معرفة المنطقية ذات الصلة بالسؤال والخيارات يسهل الاعتراف بالإجابة الصحيحة.ومع ذلك، تعاني نماذج التفكير الحالية من الضوضاء في المعرفة المستردة.في هذه الورقة، نقترح طريقة ترميز جديدة قادرة على إجراء الاعتراض والتصفية الناعمة.وهذا يساهم في حصاد وامتصاص المعلومات التمثيلية مع تدخل أقل من الضوضاء.نقوم بتجربة commonsenseqa.توضح النتائج التجريبية أن طريقتنا تعطي تحسينات كبيرة ومتسقة مقارنة بخدمات الأساس والقاعدة القائمة على روبرتا وألبرت.

multi-choice question answering tackle multi-choice question استجابة سؤال متعددة الاختيار معالجة سؤال متعدد الاختيار صناعة حمض الفوسفور

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد