ترغب بنشر مسار تعليمي؟ اضغط هنا

681 - arxiv 2022 كتاب
النماذج اللغوية الكبيرة "المضبوطة للتعليمات" (التي تم ضبطها للاستجابة للتعليمات) قد أظهرت قدرة ملحوظة على التعميم بدون أي تدريب في مهام جديدة. ومع ذلك، فإنها تعتمد بشدة على بيانات التعليمات المكتوبة بواسطة الإنسان والتي تكون محدودة في الكمية والتنوع والإبداع، مما يعيق عملية التعميم للنموذج المضبوط. نقدم "Self-Instruct"، وهو إطار عمل لتحسين قدرات اتباع التعليمات لنماذج اللغة المدربة مسبقًا عن طريق الاستفادة من توليداتها الخاصة. يقوم خط أنابيبنا بتوليد عينات من التعليمات والإدخال والإخراج من نموذج اللغة، ثم يقوم بتقليصها قبل استخدامها لضبط النموذج الأصلي. باستخدام طريقتنا على GPT3 الأساسية، نظهر تحسينًا مطلقًا بنسبة 33٪ على نموذج Super-NaturalInstructions الأصلي، وهو متوافق مع أداء InstructGPT_001، والذي يتم تدريبه باستخدام بيانات مستخدم خاصة وتعليمات بشرية. لتقييم أعمق، نحن نضع مجموعة من التعليمات المكتوبة من قبل خبراء للمهام الجديدة، ونظهر من خلال التقييم البشري أن ضبط GPT3 باستخدام Self-Instruct يفوق استخدام مجموعات بيانات التعليمات العامة الموجودة حاليًا بفارق كبير، ولا يترك سوى فجوة بنسبة 5٪ خلف InstructGPT_001. يوفر Self-Instruct طريقة تقريبًا خالية من التعليقات لمزامنة نماذج اللغة المدربة مسبقًا مع التعليمات، ونحن نطلق مجموعة بيانات اصطناعية كبيرة لتسهيل الدراسات المستقبلية حول ضبط التعليمات.
تحذير: تحتوي هذه المقالة على محتويات قد تسيء إلى القراء. الاستراتيجيات التي تنشر ضجيجا متعمدا في نص عند نشرها شائعة في فضاء الإنترنت، وأحيانا تهدف إلى السماح لبعض أفراد المجتمع فقط بفهم الدلالات الحقيقية. في هذه الورقة، نستكشف الغرض من هذه الإجراءا ت عن طريق تصنيفها إلى حيل و ميمز وفلاتر والأكواد، وتنظيم الاستراتيجيات اللغوية المستخدمة في كل غرض. من خلال ذلك، نحدد أن يتم إجراء هذه الاستراتيجيات من قبل مؤلفين لأغراض متعددة، فيما يتعلق بوجود أصحاب المصلحة مثل الأقران والآخرين.ونحلل أخيرا كيفية ظهور هذه الاستراتيجيات بشكل مختلف في كل ظرف من الظروف، إلى جانب الأمثلة المصاحبة للتصنيف الموحد.
يأتي تلخيص الحوار مع تحديات خاصة به على عكس تلخيص الأخبار أو المقالات العلمية. في هذا العمل، نستكشف أربعة تحديات مختلفة لهذه المهمة: التعامل مع أجزاء من الحوار والتمييز بين المتحدثين المتعددين، وفهم النفي، والمنطق حول الوضع، وفهم اللغة غير الرسمية. باستخدام نموذج لغة متسلسل مدرب مسبقا، نستكشف محل استبدال اسم المتكلم، وإبراز نطاق النفي، والتعلم المتعدد المهام مع المهام ذات الصلة، وإحصاء البيانات داخل المجال.تظهر تجاربنا أن تقنياتنا المقترحة تحسن أداء الملخصات، وتتفوق على نظم أساسية قوية.
مرت الشبكة العنكبوتية بأجيال متعددة منذ أن تم تطويرها عام ١٩٩٠م على يد تيم بيرنـرز لي Lee- Berners Tim ، فقد دعمت النشر الإلكتروني من خلال صفحات تسـتخدم لغـة ترميز النصوص الفائقة HTML ، ثم تطورت فيما بعد لتعتمد على النشر باستخدام نظم إدارة المحتوى. و قد كانت الشبكة العنكبوتية تحقق استرجاع المعلومات وتبادل المعرفة والمشـاركة فيها بين المستفيدين من أي مكان دون اعتبار للحواجز الجغرافية. ومع ظهور الجيل الثاني من الويب تم استخدام تقنيات وبروتوكولات حديثة للنشر الإلكتروني، وبدأت عملية استخدام الشبكة العنكبوتية تتجه نحو التفاعل بين المستفيد والنظام مـن خـلال التقنيات المختلفة مثل الويكي wiki ، و خدمة مـوجز الويـب (RSS (Syndication Really Simple ، والشبكات الاجتماعية، وغيرها... ومع الاتجاه نحو الجيل الثالث من الويب ظهر ما يعرف بتقنيات الويب الدلالي web Semantic ، الذي يعد ثورة في عالم المعلومات، حيـث أحدث نقلة في معالجة المعلومات عن طريق تحقيق فهم الويب لمعاني ودلالات الكلمات التـي يعالجها ويسترجعها؛ فلم يقتصر الأمر على ما كان عليه في السابق من التعامل مع الآلة مـن خلال التعرف على اللغة الثنائية (صفر وواحد)، دون فهم لدلالات المكتوب عبر الويب. وقد تبع هذا التطور، تطوراً في نظم استرجاع المعلومات المستخدمة مع هذا الجيل الجديد من الويب؛ حيث ظهر ما يعرف بالبحث الدلالي search Semantic ، ومحركات البحث التـي تقدم هذا النوع من البحث. وفي هذه الدراسة تعرف الباحثة بالبحث الدلالي وخصائصه، وما يميزه عن البحث التقليـدي، مع دراسة تطبيقية تحليلية لاستخدام أحد محركات البحث الدلالي مقارنة بأحد محركات البحث التقليدي، حيث تغطي الدراسة كل من محرك بحث حكيا، ومحرك بحث جوجل، للتعرف على بعض خصائصهما البحثية والاسترجاعية خلال فترة إجراء الدراسة التطبيقية في شهر نوفمبر من عام ٢٠١٠م.
مع زيادة الشبكات الاجتماعية ، بدأ الناس في مشاركة المعلومات عبر أنواع مختلفة من وسائل التواصل. في هذا العمل قمنا بالاستفادة من قصص الأطفال وتوظيفها لتعليم الاطفال وذلك عن طريق قراءة قصة لهم وتحويلها إلى نص ومعالجة النص باستخدام اللغات الطبيعية و استخراج المشاعر بشكل اتوماتيكي من هذه القصة و لتحقيق ذلك قمنا باستخدام عدة تقنيات و دمجها و قارنا بين نتائجها على عدد من القصص القصيرة المخصصة للأطفال حيث تم استخدام كل من التقنيات المختلفة غير الخاضعة للإشراف مثال Dictionary Basedأو خاضعة للإشراف كالشبكات العصبونية التي تعتمد على البيانات لتحليل المشاعر حيث استخدمنا مصنفات متعددة وهي Support Vector Machineوstochastic Gradient Descent و Decision Tree و Random ForestوNaïve BayesوK-Nearest NeighborوNearest Centroidكذلك استخدمنا الشبكات العصبونية العميقة كمثال الشبكات العصبونية التكرارية RNNو في النهاية تم التوصل إلى استنتاج المشاعر الصحيحة للقصة من خلال Dictionary Basedالتي اعطت افضل دقة ثم إظهار صورة التعبير الصحيح الذي يبين للطفل التعبير المراد إبداؤه عند سماع أحداث هذه القصةليتفاعل معه ويتعلم التعبير الصحيح
يعد انتشار الأخبار المزيفة من القضايا الحالية التي تؤثر على عدد من المجالات المهمة في المجتمع ، مثل السياسة والاقتصاد والصحة. في مجال معالجة اللغة الطبيعية ، حاولت المبادرات الأخيرة الكشف عن الأخبار المزيفة بطرق مختلفة، بدءًا من الأساليب القائمة عل ى اللغة إلى التحقق القائم على المحتوى. في مثل هذه الأساليب ، يعد اختيار ميزات تصنيف الأخبار الكاذبة والحقيقية أحد أهم أجزاء العملية. تقدم هذه الورقة دراسة حول تأثير ميزات سهولة القراءة للكشف عن الأخبار المزيفة للغة البرتغالية البرازيلية. تظهر النتائج أن هذه الميزات ذات صلة بالمهمة (تحقق بمفردها دقة تصنيف تصل إلى 92٪) وقد تحسن نتائج التصنيف السابقة. (بحث انكليزي)
قمنا في هذا البحث باتباع نهج تحليل المشاعر المعتمد على المعجم لتحديد التوجه العام للطلاب، ايجابي او سلبي او محايد، اذ قمنا بداية ببناء معجم مشاعر انطلاقا من بعض المعاجم المعدة مسبقا ليتم اعتماده في عملية تحليل المشاعر، ثم قمنا بوضع نموذج يوجد رأي الط لاب العام بالاعتماد على المعجم السابق، يعالج النموذج الكتابي الكلمات التي تزيد من حدة المشاعر والرموز التعبيرية وبعض حالات النفي، وقمنا باضافة تفاعلات المستخدمين الأخرين مع المنشورات عند ايجاد التوجه العام بهدف اخذ أراء الطلاب الذين لم يعبروا عن أرائهم بنصوص مكتوبة.
تعرض المحاضرة شرح عن علم البيانات وعلاقته بعلم الإحصاء والتعلم الآلي وحالتين دراسيتين عن دور عالم البيانات في تصميم حلول تعتمد على استخراج المعرفة من حجم كبير من البيانات المتوفرة, كما يتم عرض أهم المهام في المؤتمرات العلمية التي يمكن المشاركة بها لطلاب المعلوماتية المهتمين بهذا المجال
يعتبر تركيب الكلام بشكل آلي من أهم المسائل المطروحة في الذكاء الصنعي منذ بداياته، حيث تتزايد الحاجة لأنظمة تركيب كلام مستقرة بحيث تنتج خطاباً ذكياً مع كيفية الكلام الطبيعي. تركيب الكلام speech synthesis يعتبر الأهم في تصنيع آلات متحدثة قادرة على التو اصل مع الإنسان بطريقة فعالة وبسيطة، سواء في أنظمة الحوار الآلي Auto dialogue systems، توليد آلي للكتب الصوتية Auto generating of Audio books، متحدث مساعد لذوي الاحتياجات الخاصة different able humans، وغير ذلك من الأنظمة التي تحتاجها البشرية اعتماداً على معالجة اللغات الطبيعيةNatural language processing وفهم الكلام Language Understanding في سبيل خدمة التواصل بين الآلة والإنسان Human-computer Interaction.
يهدف هذا البحث إلى اقتراح طريقة لتحسين نتائج استرجاع المعلومات العربية دلالياً و ذلك بتلخيص النصوص تجريدياً (Abstractive Summary) باستخدام خوارزميات معالجة اللغات الطبيعية (NLP), حل غموض معاني الكلمات (WSD) و قياس التشابهية الدلالية (Semantic Si milarity) فيما بينها باستخدام الأنتولوجيا العربية Arabic WordNet.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا