هدف البحث إلى تقييم الأداء البيئي للشركات الصناعية العاملة في محافظة اللاذقية باستخدام معطيات المواصفة القياسية ISO14001 متمثلة بالمتغيرات (السياسة البيئية، التخطيط، التنفيذ والتشغيل، نظام الإدارة البيئية، أدوات الإدارة البيئية و أبعاد الأداء البيئي)
، وقد تم استخدام المنهج الوصفي التحليل في توصيف الجانب النظري، كما تم استخدام منهج المسح الإحصائي، حيث قام الباحث بتوزيع (140) استبانة على عينة من الشركات الصناعية العاملة في محافظة اللاذقية محل الدراسة، تم استرداد (137) استبانة مستوفاة لشروط البحث أي ما نسبته )98%) من الاستبانات الموزعة، كما قام الباحث بتحليل البيانات عبر استخدام برنامج التحليل الإحصائي (SPSS.23).
وفي نهاية البحث توصل الباحث إلى مجموعة من الاستنتاجات وأهمها: أن الأداء البيئي الفعلي للشركات الصناعية محل الدراسة لا يتوافق مع الأداء البيئي المطلوب وفقا لمعطيات المواصفة القياسية ISO14001، حيث أظهر التحليل الإحصائي للبيانات أن جميع متغيرات الأداء البيئي باستثناء متغير "التخطيط" كانت دون المستوى المطلوب الأمر الذي يدل على أن الشركات الصناعية محل الدراسة لا تأخذ الجانب البيئي بشكل جدي بعين الاعتبار ضمن أنشطتها المختلفة، كما قدم الباحث عدة توصيات، من أبرزها: يتوجب على الشركات الصناعية العاملة في محافظة اللاذقية التركيز على وضع سياسة بيئية محددة وواضحة الأهداف والغايات بالإضافة إلى وضع نظام إدارة بيئية يتكامل مع الأنظمة الأخرى للشركات سواء الإدارية والمالية، كما يتوجب على الجهات المعنية في البلاد فرض شروط على الشركات الصناعية الحصول على شهادات ISO العالمية المتعلقة بالبيئة أو شهادات أخرى متكافئة معها.
نظرا لأن طرازات لغة واسعة النطاق مدربة مسبقا تحقق دقة على المستوى البشري والأخبار الدقة على مهام فهم اللغة الحالية، دعت التحيز الإحصائي في البيانات القياسية والدراسات التحقيق مؤخرا إلى قدراتهم الحقيقية.للحصول على تقييم أكثر إعلانية من الدقة بشأن مهام
تصنيف النص يمكن أن تقدم، نقترح تقييم أنظمة من خلال مقياس جديد لتماسك التنبؤ.نحن نطبق إطار عملنا على اثنين من التفاهم مع المعايير ذات الخصائص المختلفة لإظهار تنوعه.تبين نتائجنا التجريبية أن إطار التقييم هذا، على الرغم من بسيطة في الأفكار والتنفيذ، هو إجراء سريع وفعال وتنوعا لتوفير نظرة ثاقبة في تماسك تنبؤات الآلات.
تفترض الدراسات المسبقة عن جيل النص إلى النص عادة أن النموذج يمكن أن يكتشف ما هو الحضور في المدخلات وما يجب تضمينه في الإخراج عبر التعلم SEQ2SEQ، مع فقط بيانات التدريب الموازي وليس هناك إرشادات إضافية. ومع ذلك، لا يزال غير واضح ما إذا كانت النماذج الح
الية يمكن أن تحافظ على مفاهيم مهمة في مدخلات المصدر، حيث لا يكون لتعلم SEQ2SeQ تركيز صريح على المفاهيم ومقاييس التقييم الشائعة الاستخدام تعاملها بنفس القدر من الأهمية بنفس القدر من الأهمية. في هذه الورقة، نقدم تحليلا منهجيا يدرس ما إذا كانت نماذج SEQ2SEQ الحالية، خاصة نماذج اللغة المدربة مسبقا، جيدة بما يكفي للحفاظ على مفاهيم الإدخال المهمة وإلى أي مدى توجيه الجيل الصريح مع مفاهيم القيود المعجمية مفيدة. نجيب على الأسئلة المذكورة أعلاه من خلال إجراء تجارب تحليلية مكثفة على أربع مهام توليد نصية ممثلة للنص. بناء على الملاحظات، فإننا نقترح بعد ذلك إطارا بسيطا بعد فعالا لاستخراج مفاهيم الإدخال والانحدار وفرضها تلقائيا كقيود معجمية. تؤدي هذه الطريقة الجديدة بشكل مبادل أو أفضل من نظيرها غير المقيد في المقاييس التلقائية، ويوضح تغطية أعلى للحفاظ على المفهوم، وتتلقى تصنيفات أفضل في التقييم البشري. يتوفر الكود الخاص بنا في https://github.com/morningmoni/ede.
أنظمة الحوار الشخصية هي خطوة أساسية نحو تفاعل أفضل للرشاشة. يعتمد عملاء الحوار الشخصي الموجودين على مجموعات بيانات المحادثة المصممة بشكل صحيح، والتي هي في الغالب أحادية طاهرية (على سبيل المثال، الإنجليزية)، والتي تحد بشكل كبير من استخدام وكلاء المحاد
ثة بلغات أخرى. في هذه الورقة، نقترح تمديد متعدد اللغات من الدردشة، أي XPersona. تتضمن DataSet لدينا محادثات الشخص في ست لغات مختلفة بخلاف اللغة الإنجليزية لتقييم وكلاء شخصيين متعدد اللغات. نقوم بتجربة خطوط الأساس المدربين متعدد اللغات واللغات المعلنة وتقييمها ضد نماذج خطوط الأنابيب أحادية الترجمة والترجمة باستخدام التقييم التلقائي والبشري. تظهر النتائج التجريبية أن النماذج المدربة متعددة اللغات تتفوق على خط أنابيب الترجمة وأنها على قدم المساواة مع النماذج الأولية، مع ميزة وجود نموذج واحد عبر لغات متعددة. من ناحية أخرى، فإن النماذج المدربة عبر اللغات الواحد من بين الفن تحقق أدنى أدنى للنماذج الأخرى، مما يدل على أن نمذجة المحادثة عبر اللغات هي مهمة صعبة. نأمل أن تسرع مجموعة بياناتنا وخطوط الأساسين بحثا في أنظمة حوار متعددة اللغات.
تم اقتراح العديد من المقاييس العصبية مقرا لها مؤخرا لتقييم جودة الترجمة الآلية. ومع ذلك، فإن كل منهم يلجأون إلى تقديرات نقطة، والتي توفر معلومات محدودة في مستوى القطاع. وهذا ما هو أسوأ لأنهم مدربون على الأحكام البشرية الصاخبة والتحازة والصحيحة، وغالب
ا ما يؤدي إلى تنبؤات عالية الجودة. في هذه الورقة، نقدم تقييم MT على دراية عدم اليقين وتحليل الجدارة بالثقة للجودة المتوقعة. نحن نجمع بين إطار المذنب مع أساليب تقدير عدم اليقين، مونتي كارلو التسرب والكميمات العميقة، للحصول على درجات عالية الجودة إلى جانب فترات الثقة. نحن نقارن أداء أساليب تقييم MT على دراية بعملية عدم اليقين عبر أزواج متعددة اللغات من مجموعة بيانات QT21 ومهمة مقاييس WMT20، المعزز بالشروح MQM. نقوم بتجربة أعداد متفاوتة من المراجع وأكثر مناقشة فائدة تقدير الجودة على علم عدم اليقين (بدون مراجع) لإعلام أخطاء الترجمة الهامة المحتملة.
تتحمل أنظمة Training NLP عادة إمكانية الوصول إلى البيانات المشروحة التي تحتوي على ملصق بشري واحد لكل مثال. بالنظر إلى وضع علامات غير كاملة من الحنجرة والغموض الملازمين من اللغة، فإننا نفترض أن العلامة الفردية ليست كافية لتعلم مجموعة تفسير اللغة. نستك
شف مخططات توزيع توضيحية جديدة، وتعيين ملصقات متعددة لكل مثال لمجموعة فرعية صغيرة من أمثلة التدريب. تقديم أمثلة متعددة التوصيل هذه بتكلفة التعليق عدد أقل من الأمثلة التي تجلب مكاسب واضحة حول مهمة مهمة وكتابة الكيان في اللغة الطبيعية، حتى عندما نتدرب أولا مع بيانات تسمية واحدة ثم ضبط أمثلة ملصقات متعددة. تمديد إطار تكبير بيانات مختلط، نقترح خوارزمية التعلم التي يمكن أن تتعلم من الأمثلة التدريبية مع كمية مختلفة من التوضيحية (مع صفر، واحد، أو ملصقات متعددة). تجمع هذه الخوارزمية بكفاءة مع الإشارات من بيانات التدريب غير المتكافئة وتجلب مكاسب إضافية في ميزانية التوضيحية المنخفضة وإعدادات المجال الصليب. معا، تحقق طريقة لدينا مكاسب ثابتة في مهام اثنين، مما يشير إلى أن التسميات التوزيعية بشكل غير متساو بين أمثلة التدريب يمكن أن تكون مفيدة للعديد من مهام NLP.
اكتسبت الترجمة الآلية المتزامنة الجر مؤخرا، بفضل تحسينات الجودة المهمة ومختام تطبيقات البث.تحتاج أنظمة الترجمة المتزامنة إلى إيجاد مفاضلة بين جودة الترجمة ووقت الاستجابة، وبالتالي تم اقتراح تدابير الكمون المتعددة.ومع ذلك، يتم تقدير تقييمات الكمون للت
رجمة الفورية على مستوى الجملة، ولا تأخذ في الاعتبار الطبيعة المتسلسلة لسيناريو البث.في الواقع، هذه تدابير الكمون على مستوى الجملة ليست مناسبة تماما للترجمة المستمرة، مما أدى إلى وجود أرقام غير متماسكة مع سياسة الترجمة المتزامنة للنظام التي يتم تقييمها.يقترح هذا العمل تكيف مستوى دفق من تدابير الكمون الحالية بناء على نهج إعادة تجزئة مطبق على ترجمة الناتج، والتي يتم تقييمها بنجاح على شروط البث لمهمة الإشارة IWSLT.
إن التقاط معنى كلمة في السياق والتمييز بين المراسلات والاختلافات عبر اللغات هو مفتاح بناء نماذج تمثيل نصية متعددة اللغات والنجاح. ومع ذلك، فإن مجموعات بيانات التقييم المتعددة اللغات الحالية التي تقيم الدلالات المعجمية في السياق "لها قيود مختلفة. على
وجه الخصوص، 1) تقتصر تغطيتها اللغوية على لغات الموارد العالية والانحساج لصالح سوى عدد قليل من الأسر والمناطق اللغوية، 2) تصميم يجعل المهمة قابلة للحل عبر الإشارات السطحية، والتي تؤدي إلى تضخم بشكل مصطنع (وأحيانا سوبر -Human) عروض التشفير المحددين، و 3) لا يوجد دعم للتقييم المتبادل اللغوي. من أجل معالجة هذه الثغرات، نقدم AM2ICO (المعنى الخصومة والتعدد اللغات في السياق)، مجموعة التقييم الواسع التغطية واللغات متعددة اللغات؛ يهدف إلى تقييم إدراج قدرة نماذج التمثيل الحديثة (SOTA) لفهم هوية معنى الكلمات في السياقات المتبادلة لمدة 14 أزواج لغوية. نقوم بإجراء سلسلة من التجارب في مجموعة واسعة من الإعدادات وإظهار الطبيعة الصعبة ل AM2ICO. تكشف النتائج أن تشفير سوتا الحالية التي يتعامل معها يتخلف بشكل كبير وراء الأداء البشري، ويتم ملاحظة أكبر فجوات لغات الموارد المنخفضة ولغات مختلفة عن اللغة الإنجليزية.
يعد تقييم جيل اللغة الطبيعي (NLG) مهمة متعددة الأوجه تتطلب تقييم معايير متعددة المرغوبة، على سبيل المثال، الطلاقة، والاستماس، والتغطية، والأهمية، والكفاية، والجودة الكلية، وما إلى ذلك عبر مجموعات البيانات الحالية لمدة 6 مهام NLG، نلاحظ أن درجات التقي
يم البشري في هذه المعايير المتعددة غالبا ما لا يرتبط. على سبيل المثال، هناك ارتباط منخفض للغاية بين الدرجات البشرية على تغطية الطلاقة والبيانات لمهمة البيانات المنظمة إلى جيل النص. يشير هذا إلى أن الوصفة الحالية لاقتراح مقاييس تقييم تلقائية جديدة ل NLG من خلال إظهار أنها ترتبط بشكل جيد مع الدرجات التي حددها البشر لمعايير واحدة (الجودة الشاملة) وحدها غير كافية. في الواقع، فإن دراستنا الواسعة التي تنطوي على 25 مقيط تقييم تلقائي عبر 6 مهام مختلفة و 18 معايير تقييم مختلفة تظهر أنه لا يوجد متري واحد يرتبط جيدا بدرجات بشرية على جميع المعايير المرغوبة، لمعظم مهام NLG. بالنظر إلى هذا الوضع، نقترح قوائم المراجعة لتحسين تصميم وتقييم المقاييس التلقائية. نقوم بتصميم قوالب تستهدف معايير محددة (مثل التغطية) وإشراض الإنتاج بحيث تتأثر الجودة فقط على طول هذه المعايير المحددة (على سبيل المثال، قطرات التغطية). نظهر أن مقاييس التقييم الحالية ليست قوية ضد هذه الاضطرابات البسيطة ويعارضها في الدرجات المعينة من قبل البشر إلى الإخراج المضطرب. وبالتالي فإن القوالب المقترحة تسمح بتقييم جيد المحبوس لمقاييس التقييم التلقائي تعريض قيودها وسيسهل تصميم وتحليل وتقييم أفضل لهذه المقاييس. تتوفر قوالب ورمز لدينا في https://iitmnlp.github.io/evaleval/
حققت نماذج اللغة المدربة مسبقا (PTLMS) أداء مثير للإعجاب في معايير استنتاج المنطقية، لكن قدرتها على استخدام المناولة لإستنساخ قوي، وهو أمر ضروري للاتصالات الفعالة مع البشر،. في السعي لتحقيق الاتصالات السائل للاتصالات الإنسانية، نقترح تحديا جديدا، ريك
ا: الاستدلال القوي باستخدام بديهيات المنطقية، التي تقيم الاستدلال القوي المنزلي على الرغم من الاضطرابات النصية. لتوليد بيانات لهذا التحدي، نقوم بتطوير إجراءات منهجية وقابلة للتطوير باستخدام قواعد المعرفة المنطقية والتحقيق PTLMS عبر إعدادين تقييمين مختلفين. تبين تجارب واسعة النطاق على مجموعات التحقيق التي تم إنشاؤها مع أكثر من 10K عبارات أن ptlms لا تؤدي أفضل من التخمين العشوائي على إعداد اللقطة الصفرية، وتتأثر بشدة بالتحيزات الإحصائية، وهي ليست قوية لهجمات الاضطراب. نجد أيضا أن الضبط الدقيق حول تصريحات مماثلة تقدم مكاسب محدودة، حيث لا تزال PTLMS تفشل في تعميم الاستدلالات غير المرئية. يعرض مؤشرنا الجديد واسع النطاق فجوة كبيرة بين PTLMS وفهم لغة الإنسان ويقدم تحديا جديدا ل PTLMS لإظهار العمولة.