ترغب بنشر مسار تعليمي؟ اضغط هنا

فلترة حسب

آخر الاسئلة

القيمة الاحتمالية p value هي قياس إحصائي يساعد العلماء على تحديد ما إذا كانت فرضية معينة صحيحة أم لا؛ إذ تستخدم القيمة الاحتمالية لتحديد ما إذا كانت نتائج تجربة ما ضمن النطاق الطبيعي للقيم الخاصة بموضوع البحث. وفي العادة، إذا كانت القيمة الاحتمالية لمجموعة بيانات أقل من مقدار معين محدد مسبقًا (مثلاً: 0,05)، يرفض العلماء عندئذ "فرضية العدم" الخاصة بالتجربة - أي أنهم يستبعدون فرضية أن متغيرات التجربة لم يكن لها تأثير ذو قيمة على النتائج. اليوم، يمكنك الوصول للقيم الاحتمالية المختلفة بالنظر في جداول مرجعية عن طريق حساب قيمة مربع كاي chi square أولًا.

خطوات الحساب:



1- حدد النتائج المتوقعة للتجربة. عندما يجري العلماء تجربة ما ويرصدون النتائج، فعادة ما يكون لديهم فكرة مسبقة عما يعتبر نتيجة "طبيعية" أو "قياسية"؛ وذلك اعتمادًا على نتائج تجارب سابقة أو مجموعة بيانات وصفية موثوق بها أو منشورات علمية أو مصادر أخرى. عند إجرائك التجربة، حدد النتئج المتوقعة، وصِغها كرقم.

  • على سبيل المثال، لنقل أن دراسات سابقة أظهرت أنه على المستوى القومي، تحرر مخالفات تجاوز السرعة للسيارات الحمراء أكثر من السيارات الزرقاء؛ ولنقل أن النسبة بينهما هي 2:1. نريد أن نعرف ما إذا كانت الشرطة في مدينتنا تبدي هذا التحيز، وذلك عن طريق فحص مخالفات السرعة التي تم تحريرها محليًا. إذا أخذنا، من المخالفات المحررة للسيارات الزرقاء والحمراء في المدينة، 150 مخالفة عشوائيًا، فلنا أن نتوقع أن يكون منها 100 للسيارات الحمراء و50 للزرقاء، وذلك إذا كان تحرير المخالفات من قبل الشرطة في مدينتنا يماثل التحيز العام.



2- حدد النتائج المرصودة في التجربة. الآن وقد حددت النتائج المتوقعة، يمكنك إجراء التجربة والوصول للنتائج الفعلية (أو "المرصودة"). عبر عنها هي الآخرى كأرقام. إذا غيرنا بعض ظروف التجربة واختلفت النتائج المرصودة عن المتوقعة، فهناك احتمالان: إما أن هذا وليد الصدفة، أو أن تعديل متغيرات التجربة تسبب في هذا الاختلاف. الهدف من حساب القيمة الاحتمالية p هو تحديد ما إذا كان الاختلاف بين النتائج المتوقعة والمرصودة بالقدر الذي يجعل "فرضية العدم" (وهي القائلة بعدم وجود علاقة بين متغيرات التجربة والنتائج المرصودة) أبعد احتمالًا من أن تقبل.

  • في المثال: لنقل أننا اخترنا من المخالفات المحررة في المدينة للسيارات الحمراء والزرقاء 150 مخالفة بشكل عشوائي، ووجدنا أن 90 منها حررت ضد السيارات الحمراء و 60 ضد الزرقاء. أي أنهما يختلفان عن النتائج المتوقعة (100 و 50 على الترتيب). هل تسبب تعديلنا لظروف التجربة (في هذ الحالة، تغيير مصدر البيانات من المستوى القومي إلى المحلي) في هذا الاختلاف، أم أن الشرطة في مدينتنا على نفس التحيز الذي نم عنه المعدل القومي، وما نراه هو مجرد اختلاف نتيجة الصدفة؟ تساعدنا القيمة الاحتمالية على التفريق.


3- حدد درجات الحرية (degrees of freedom) الخاصة بالتجربة. درجات الحرية هي قياس لمقدار التغير الممكن في البحث، والذي يحدده عدد الفئات categories التي تتفحصها. عدد درجات الحرية هو n-1 حيث "n" هي عدد الفئات أو المتغيرات التي يتم تحليلها في التجربة.

  • في المثال، هناك فئتان للنتائج: واحدة للسيارات الحمراء والأخرى للزرقاء. ولهذا، تكون n-1 = 2-1 = 1 ؛ أي أن هناك درجة واحدة للحرية. لو قارنّا السيارات الحمراء والزرقاء والخضراء، لكان هناك درجتان للحرية، وهكذا.


4- قارن النتائج المتوقعة والمرصودة باستخدام اختبار مربع كاي chi square. مربع كاي (ويكتب "x2") هو قيمة عددية تقيس الفارق بين النتائج المتوقعة والمرصودة لتجربة ما. ومعادلته هي: x2 = Σ((o-e)2/e), حيث "o" ترمز للنتائج المرصودة observed و "e" ترمز للنتائج المتوقعة expected.[١] ويتم جمع كل نتائج هذه المعادلة بعد تطبيقها على كل الاحتمالات الممكنة. (انظر ما يلي)

  • لاحظ أن هذه المعادلة بها رمز Σ (سيجما). أي أنك ستحتاج لأن تحسب ((|o-e|-.05)2/e) لكل الاحتمالات الممكنة، ثم تجمع النتائج معًا لتحصل على قيمة مربع كاي. في مثالنا، لدينا احتمالان - إما أن تكون السيارة التي نالت المخالفة حمراء أو زرقاء. ولهذا سنحسب ((o-e)2/e) مرتين - واحدة للسيارات الحمراء وأخرى للسيارات الرزرقاء.
  • لنطبق في المثال: سنعوض عن النتائج المتوقعة والمرصودة في المعادلة x2 = Σ((o-e)2/e). وتذكر أنه بسبب رمز سيجما، سنقوم بحساب ((o-e)2/e) مرتين - واحدة لكل لون. ما سنقوم به هو:
  • x2 = ((90-100)2/100) + (60-50)2/50)
  • x2 = ((-10)2/100) + (10)2/50)
  • x2 = (100/100) + (100/50) = 1 + 2 = .



5- اختر مستوى الدلالة الإحصائية. بعد أن عرفنا درجات الحرية في التجربة وقيمة مربع كاي، بقي آخر متطلب لمعرفة القيمة الاحتمالية - وهو تحديد مستوى الدلالة، وهو باختصار مقياس لمدى اليقين التي نرغب أن نكون عليه فيما يخص نتائج التجربة - إذا قل مستوى الدلالة، عنى ذلك قلة احتمال وقوع النتائج بسبب الصدفة، وبالعكس. تكتب مستويات الدلالة ككسر عشري (مثلاً، 0.01)، وهو ما يماثل النسبة المئوية لاحتمال حدوث النتائج بالصدفة (أي في هذا المثال، 1%)

  • في العرف العلمي، يحدد مستوى الدلالة للتجارب عادة عند 0,05 أو 5 بالمائة.[٢] هذا يعني أن النتائج التي تفي بهذا المستوى لديها احتمال 5% على الأكثر أن تكون نتاج الصدفة البحتة. بعبارة أخرى، هناك احتمال 95% أن يكون السبب في هذه النتائج هو تعديل العلماء لمتغيرات التجربة وليس الصدفة. بالنسبة لأغلب التجارب، ينظر للثقة بنسبة 95% في العلاقة بين متغيرين باعتبارها "نجاحًا" في إثبات وجود علاقة بينهما.
  • في المثال: لنتبع العرف العلمي ونجعل مستوى الدلالة 0,05.



6- استخدم أحد جداول توزيع مربع كاي لتقريب القيمة الاحتمالية الخاصة بالتجربة. يستخدم العلماء والإحصائيون جداول كبيرة لحساب القيمة الاحتمالية للتجربة. النسق العام لتلك الجداول يضع درجات الحرية في المحور الرأسي على اليسار بينما يمثل المحور الأفقي القيم الاحتمالية. ابدأ بإيجاد درجات الحرية للتجربة ثم اقرأ القيم في الصف الخاص بها من اليسار إلى اليمين حتى تجد أول قيمة تفوق قيمة مربع كاي الخاصة بالتجربة، ثم اقرأ القيمة الاحتمالية أعلى ذلك العمود. بين هذه القيمة والقيمة الأكبر منها مباشرة (التالية لها من جهة اليسار) تقع القيمة الاحتمالية الخاصة بتجربتك.

  • يمكنك العثور على جداول توزيع مربع كاي في مصادر عديدة - على الإنترنت أو في الكتب العلمية والإحصائية. إذا لم تتحصل على أحدها بسهولة، فيمكنك استخدام الجدول في الصورة بالأعلى أو أحد الجداول المتوفرة مجاناً على الإنترنت كما في medcalc.org هنا.
  • في المثال، كانت قيمة مربع كاي = 3. لنستخدم الجدول في الصورة أعلاه لحساب القيمة الاحتمالية بشكل تقريبي. بما أن درجات الحرية كانت واحدة فقط، سنستعمل الصف الأول، ونتحرك من اليسار إلى اليمين حتى نجد قيمة أكبر من 3 - أي قيمة مربع كاي التي انتهينا إليها. أول قيمة بهذا الوصف هي 3.84، وبالنظر إلى أعلى العمود، نجد القيمة الاحتمالية 0,05 والتالية لها جهة اليسار هي 0,1. إذن، القيمة الاحتمالية الخاصة بنا تقع بين 0,05 و 0,1.



7- حدد ما إذا كنت ستقبل أم ترفض فرضية العدم. بما أنك حصلت على قيمة تقريبية للقيمة الاحتمالية الخاصة بالتجربة، يمكنك تقرير ما إذا كنت سترفض فرضية العدم الخاصة بتجربتك (وهي، للتذكير، الفرضية القائلة بأن متغيرات التجربة التي تدخلت بها لم تؤثر على النتائج التي رصدتها.) إذا كانت القيمة الاحتمالية للتجربة أقل من مستوى الدلالة، فتهانينا - لقد أثبتّ أنه من المرجح جدًا وجود علاقة بين المتغيرات التي عدلتها والنتائج التي رصدتها. إذا كانت، في المقابل، أكبر من مستوى الدلالة، فليس بوسعك الجزم بكون النتائج التي رصدتها نتاج الصدفة أم نتاج التدخل في التجربة.

  • في المثال: تقع القيمة الاحتمالية للتجربة بين 0,05 و 0,1 ، أي أنها بالقطع ليست أصغر من 0,05 ؛ وبالتالي، للأسف، لا يمكننا رفض فرضية العدم. معنى هذا أننا لم نصل لحد الثقة الأدنى وهو نسبة 95% التي قررناها حتى نقول أن شرطتنا تحرر مخالفات للسيارات الحمراء والزرقاء بمعدل يختلف بشكل ذي دلالة عن المعدل القومي.
  • بتعبير آخر، هناك احتمال 5-10% أن النتائج التي رصدناها لم تكن ناجمة عن تغيير المكان (أي دراسة المدينة في مقابل الدولة بأكملها)، وإنما هي من قبيل المصادفة. ولأننا كنا نبحث عن احتمال للمصادفة أقل من 5%؛ فلا يمكننا القول بأننا متأكدون من أن شرطتنا أقل تحيزًا ضد السيارات الحمراء - فهناك احتمال صغير ولكنه مهم إحصائيًا (ذو دلالة) أنهم ليسوا كذلك.


...

ماهي قيمة P-value في الإحصاء؟

Ahmad

طرح Ahmad Ali

6174  - 0  - - تم طرحه في مساحة (الاحصاء الرياضي)

 

إن إحدى أفضل التعريفات لـ P-value بأنها احتمالية أن يكون الملخص الإحصائي للبيانات (كمتوسط الاختلاف بين مجموعتين في عينة ما) مساوياً أو أكثر تطرفاً من قيمته المقاسة وذلك بموجب نموذج إحصائي محدد.

وعلى ذلك فإن المنهجية الأشيع لاستخدام قيمة P-value في أي اختبار هي وفق ما يأتي:

1- تحديد النموذج الإحصائي المناسب للبيانات الموجودة .

2- تحديد الفرضية العدم (Null Hypothesis) والفرضية البديلة (Alternative Hypothesis).

3- تحديد القيمة الحدية (Cut-off) والمسماة عادة ألفا أو مستوى الأهمية (Significance level - α) وعادة ما تكون هذه القيمة 0.05 وتحدد وفقاً لطبيعة البيانات والفرضيات.

4- بعد حساب P-value نقارنها مع القيمة الحدية فإذا كانت أصغر منها نرفض فرضية العدم ونقبل الفرضية البديلة والعكس بالعكس.

لكن هناك جملة من الملاحظات يجب الانتباه إليها:

- يمكن أن تشير P-value إلى مدى عدم توافق البيانات مع نموذج إحصائي محدد. 

- لا تدرس P-value احتمالية أن الفرضية المدروسة صحيحة ولا احتمالية كون البيانات منتَجة عشوائياً وبالصدفة.

- يجب ألا تستند القرارات العلمية والعملية والسياسية إلى ما إذا كانت P-value تتجاوز عتبة معينة وحسب.

- يتطلب الاستدلال الصحيح إبلاغ التقارير كاملة وبكل شفافية. 

- لا تقيس P-value حجم التأثير أو أهمية النتيجة. 

- ولا توفر P-value في حد ذاتها مقياساً جيداً للأدلة المرتبطة بنموذج أو فرضية.

يجب الانتباه هنا إلى أن ما ذكر لا يتعدى كونه ملخصاً بسيطاً جداً عن P-value والتعامل معها ومع الفرضيات المرتبطة بها ونترك لكم المجال دوماً أعزاءنا القرّاء لمزيد من البحث والتفاصيل، والمراجع موجودة وبكثرة فيما يخص الدراسات الإحصائية.

Wasserstein RL, Lazar NA. The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician [Internet]. 2016 [cited 7 May 2021];70(2):129-133. Available from:

 

...

تلعب مقاييس المسافة دورًا مهمًا في التعلم الآلي فهي توفر الأساس للعديد من خوارزميات التعلم الآلي الشائعة والفعالة مثل خوارزمية أقرب جار للتعلم الخاضع للإشراف وتجميع المتوسطات  k-means للتعلم غير الخاضع للإشراف.

مسافة هامنع Hamming Distance

تقوم هذه الخوارزمية بحساب المسافة بين أشعة ثنائية القيمة، وتستخدم بكثرة في مشفرات one-hot لترميز الأعمدة التي تحوي أصناف categorical values.

على سبيل المثال، اذا كان لدينا عمود يحوي القيم أحمر, أخضر وأزرق, يتم ترميز هذه القيم بأشعة ثنائية كمايلي:

أحمر = [1,0,0]

أخضر = [0,1,0]

أزرق = [0,0,1]

المسافة بين الأحمر والأخضر يمكن حسابها بجمع الشعاعين او اخذ المتوسط لهما.

يمكن في بايثون حساب المسافة بين شعاعين ثنائيين كمايلي:

# calculate hamming distance

def hamming_distance(a, b):

return sum(abs(e1 - e2) for e1, e2 in zip(a, b)) / len(a)



# define data

row1 = [0, 0, 0, 0, 0, 1]

row2 = [0, 0, 0, 0, 1, 0]

# calculate distance

dist = hamming_distance(row1, row2)

print(dist)
...

mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا