ترغب بنشر مسار تعليمي؟ اضغط هنا

تعلم تنظيم كيس من الكلمات إلى جمل مع الشبكات العصبية: دراسة تجريبية

Learning to Organize a Bag of Words into Sentences with Neural Networks: An Empirical Study

286   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

من المفترض أن تكون المعلومات المتسلسلة، A.AK.A.، أمر ضروري لمعالجة تسلسل مع الشبكة العصبية المتكررة أو تشفير الشبكة العصبية المتكررة.ومع ذلك، هل من الممكن ترميز اللغات الطبيعية دون أوامر؟بالنظر إلى كيس من الكلمات من جملة مضطربة، قد لا يزال البشر قادرين على فهم ما تعني هذه الكلمات عن طريق إعادة ترتيبها أو إعادة بناءها.مستوحاة من هذا الحدس، في هذه الورقة، نقوم بإجراء دراسة للتحقيق في كيفية تأثير معلومات الطلب في تعلم اللغة الطبيعية.من خلال إدارة مقارنات شاملة، قارأت كميا قدرة العديد من النماذج العصبية الممثلة لتنظيم الأحكام من كيس من الكلمات بموجب ثلاثة سيناريوهات نموذجية، وتلخيص بعض النتائج والتحديات التجريبية، والتي يمكن أن تسلي الضوء على البحوث المستقبلية على خط العمل هذا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

وجدت خوارزميات التدرج السياسي اعتماد واسع في NLP، لكنها أصبحت مؤخرا عرضة للنقد، مما يشك في ملاءمتها ل NMT.تشوشين وآخرون.(2020) حدد نقاط ضعف متعددة والشك في تحديد نجاحهم من خلال شكل توزيعات الإخراج بدلا من المكافأة.في هذه الورقة، نلتأكيد هذه المطالبات ودراسةها تحت مجموعة أوسع من التكوينات.تكشف تجاربنا على التكيف في المجال والمجال عبر المجال أهمية الاستكشاف والمكافآت، وتوفير الأدلة المضادة التجريبية لهذه المطالبات.
يُعدُّ تقييم موارد المياه السطحية من المدخلات الضرورية لحل قضايا إدارة المياه، و التي تتضمن إيجاد علاقة بين الأمطار و الجريانات السطحية، و تعتبر هذه العلاقة على درجة عالية من التعقيد، حيث أن الأمطار من أهم العوامل التي تؤثر بشكل كبير على جريان الأنها ر، و عملية التنبؤ بهذه الجريانات يجب أن تأخذ هذا العامل بعين الاعتبار، و بكثير من الاهتمام و الدراسة، و تعتبر الشبكات العصبية الصنعية من أهم الطرائق الحديثة من حيث دقة نتائجها في الربط بين هذه العوامل المتعددة و البالغة التعقيد. و من أجل التنبؤ بالجريان اليومي الوارد إلى بحيرة سد 16 تشرين في اللاذقية، موضوع بحثنا، تم تطبيق نماذج مختلفة من الشبكات العصبية الصنعية (ANN)، كانت مدخلاتها تدفقات سابقة للأمطار و الجريانات. قسمت مجموعة البيانات للفترة الممتدة بين عامي (2006-2012) إلى مجموعتين: تدريب و اختبار، و قد تم معالجة البيانات قبل إدخالها إلى الشبكة العصبية باستخدام تقنية تحويل المويجات المتقطع، للتخلص من مشاكل القيم العظمى و القيم الصفرية، حيث حللت السلاسل الزمنية إلى ثلاثة مستويات من الدقة و استخدمت السلاسل الفرعية الناتجة كمدخلات للشبكة العصبية أمامية التغذية التي تعتمد على خوارزمية الانتشار العكسي لتدريبها. أشارت النتائج إلى أن الشبكة العصبية ذات الهيكلية (1-2-6) نموذج Wavelet-ANN، هي الأفضل في تمثيل الظاهرة المدروسة و الأقدر على التنبؤ بالجريان اليومي الوارد إلى بحيرة سد 16 تشرين ليوم واحد قادم، حيث بلغ معامل الارتباط و جذر مربع متوسط الخطأ (R2=0.96، RMSE=1.97m3/sec)، على الترتيب.
يتم تطبيق مصنف النصوص بانتظام على النصوص الشخصية، وترك مستخدمي هذه المصنفين عرضة لخرق الخصوصية.نقترح حلا لتصنيف النص الذي يحفظه الخصوصية التي تعتمد على الشبكات العصبية التنافعية (CNNS) والحساب الآمن متعدد الأحزاب (MPC).تتيح طريقتنا استنتاج تسمية فئة لنص شخصي بهذه الطريقة (1) لا يتعين على مالك النص الشخصي الكشف عن نصها لأي شخص بطريقة غير مشفرة، و (2) مالك النصلا يتعين على المصنف أن يكشف عن المعلمات النموذجية المدربة إلى مالك النص أو أي شخص آخر.لإظهار جدوى بروتوكولنا لتصنيف النص الخاص العملي، نفذناها في Fronten Fresk Framepten المستندة إلى Pytorch، باستخدام مخطط تقاسم سري معروف جيدا في الإعداد الصادق وغير الغريب.نحن نختبر وقت تشغيل مصنف نصي المحفوظ في الخصوصية لدينا، وهو سريع بما يكفي لاستخدامه في الممارسة العملية.
على الرغم من التحسينات المستمرة في جودة الترجمة الآلية، تظل الترجمة التلقائية الشعر مشكلة صعبة بسبب عدم وجود شاعرية موازية مفتوحة، وبالنسبة إلى التعقيدات الجوهرية المعنية في الحفاظ على الدلالات والأناقة والطبيعة المجازية للشعر. نقدم إجراءات تجريبية ل ترجمة الشعر على طول عدة أبعاد: 1) حجم وأسلوب بيانات التدريب (Poetic vs. غير شعري)، بما في ذلك إعداد الصفر بالرصاص؛ 2) ثنائي اللغة مقابل التعلم متعدد اللغات؛ و 3) نماذج لغة خاصة للعائلة مقابل نماذج عائلية مختلطة. لإنجاز ذلك، نساهم في مجموعة بيانات متوازية من ترجمات الشعر لعدة أزواج اللغة. تبين نتائجنا أن ضبط التركيب المتعدد اللغات على النص الشعري يتفوق بشكل كبير على النص المتعدد اللغوي على النص غير الشعري الذي هو 35X أكبر في الحجم، كلاهما من حيث المقاييس التلقائية (BLEU، Bertscore، المذنب) ومقاييس التقييم البشري مثل الإخلاص ( معنى والأناقة الشعرية). علاوة على ذلك، فإن ضبط التردد متعدد اللغات على البيانات الشعرية تتفوق على ضبط ثنائي اللغة على البيانات الشعرية.
مهمة مهمة في تطبيقات NLP مثل تبسيط الجملة هي القدرة على اتخاذ جملة طويلة ومعقدة وتقسيمها إلى جمل أقصر، وإعادة صياغة حسب الضرورة. نقدم مجموعة بيانات جديدة ونموذج جديد لهذه المهمة الانقسام وإعادة صياغة. تتكون بياناتنا في Bisect التدريبية من 1 مليون جمل إنجليزية طويلة مقترن بأجمل الإنجليزية الأقصر والمعاواة بينها. نحصل على هؤلاء من خلال استخراج محاذاة جملة واحدة في فورانيا متوازية ثنائية اللغة ثم استخدام الترجمة الآلية لتحويل كلا الجانبين من الجور إلى نفس اللغة. يحتوي Bisect على أمثلة تدريبية ذات جودة أعلى من SPORTA SPORTA السابق وإعادة صياغتها، مع انشقاقات الجملة التي تتطلب تعديلات أكثر أهمية. نقوم بتصنيف أمثلة في Corpus لدينا واستخدام هذه الفئات في نموذج جديد يتيح لنا استهداف مناطق محددة من جملة المدخلات التي سيتم تقسيمها وتحريرها. علاوة على ذلك، نوضح أن النماذج المدربة على Bisect يمكن أن تؤدي مجموعة متنوعة واسعة من العمليات المنقسمة وتحسينها على النهج السابقة للحالة السابقة في التقييمات التلقائية والبشرية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا