KSAG

المبدأ الذي يقوم عليه “اختبار مان ويتني U”

2012 استخدام الإحصاء لفهم البيئة

فيليب ويذر وبني أ.كوك

KFAS

اختبار مان ويتني الرياضيات والهندسة الهندسة

اختبار مان ويتني U (ويسمي في بعض الأحيان باختبار ولكوكسون مان ويتني) يقدم المكافئ غير البارامتري (غير المعلمي) للاختبار t وبما يسمح بمقارنات العينات الموزعة بغير التوزيع الطبيعي (وعلى الرغم من أن هذا الاختبار يفترض بأن البيانات من توزيعات متماثلة بدرجة كبيرة، أي أنه يجب ألا يستخدم إذا كانت العينات ملتوية بدرجة كبيرة في اتجاهات مختلفة).

ويمكن تطبيق اختبارات مان ويتني U على البيانات الموزعة توزيعاً طبيعياً، ولكن في هذه الحالة ستكون أقل قوة من الاختبار t (أي أن هناك احتمال أكبر لقبول الافتراض الصفري عندما يكون في الواقع غير صحيح – وهكذا نقع في الخطأ من النوع 2).

وفي اختبار مان ويتني U، فإن مقاييس النزعة المركزية الذي يتم مقارنته هو الوسيط أكثر منه الوسط.

وكما هو الحال مع العديد من الاختبارات غير البارامترية (غير المعلمية) فإن جميع الحسابات يتم أداؤها على وضع الرتبة لكل نقطة للبيانات بدلاً من الأعداد الفعلية.

وعلى الرغم من أن هذا التحويل للبيانات إلى رتب يؤدي إلى فقد بعض الدقة النسبية في البيانات، ولكنه يسمح بالمقارنات بين العينات التي تم قياسها على المقياس الترتيبي وكذلك تلك التي تم قياسها على مقاييس النطاق أو النسبة.

وعند حساب اختبار مان ويتني U يدوياً فإن المرحلة الأولى هي تحويل البيانات إلى قيم رتبية.

ونقاط البيانات في العينات يتم تجميعها معاً في قائمة فردية ويتم وضعها في الترتيب (ويفضل أن يكون ذلك بترتيب تصاعدي لمنع الالتباس).

وكل نقطة بيانات تحصل بعد ذلك على قيمة ترتيبيه على أساس وضعها في الترتيب الإجمالي.

وحيثما كانت القيمة الأولى بالترتيب 1 فإن التالية بالترتيب 2 وهكذا ويتم بعد ذلك تجميع القيم الرتبيه بفلك منفصل لكل عينة (لكي نحصل على R₁ Σ و R₂ Σ إجمالى الرتب للعينات 1 و 2 على الترتيب) والمؤشرات الإحصائية المختبرة U₁ و U₂ يتم حسابها باستخدام الصيغ الحسابية في المربع 4 – 3.

وقيمة U الأقل يتم بعد ذلك مقارنتها بالقيم في جدول القيم U (ويوجد اقتباس منه مبين في الجدول 4 – 3).

على الرغم من المثال الذي سيتم استخدامه له أحجام عينات متساوية فإن هذا الاختبار يمكن أيضاً تطبيقه على العينات بالأحجام المختلفة.

تصور المسح حيث تتم مقارنة حالة الأشجار بين المواقع الملوثة والنظيفة. والأوراق في أنواع نباتات عديدة تحدث بها تغيرات في الألوان مع الإجهاد.

ويمكن قياس حالة الأوراق على المقياس التالي، حيث الدرجة المنخفضة تبين أن حالة الأوراق سيئة:

6 = الأوراق لون أخضر داكن بالكامل.

5 = الأوراق بلون أخضر داكن أساساً ولكن بعضها بها مسامحات أخف.

4 = أوراق عديدة بها مساحات أخف لوناً.

3 = أوراق عديدة بها مساحات أكبر باللون الفاتح.

2 = معظم الأوراق بها مساحات كبيرة من اللون الفاتح.

1 = معظم الأوراق بها مساحات رئيسة كبيرة باللون الفاتح.

إذ قمنا بفحص أكبر شجرة في كل من 10 مواقع نظيفة و 10 مواقع ملوثة فإن بياناتنا يمكن أن تكون كما يلي:

نظيفة 4 5 4 4 5 6 6 6 6 3

ملوثة 2 2 2 1 6 4 4 5 4 3

وسنقوم أولاً بتصنيف البيانات من العينتين في عمود فردي ووضعها بالترتيب التصاعدي ثم نعطيها القيم الرتيبة (انظر المثال العملي 4 – 2).

ولاحظ أن ترتيب البيانات يصبح أكثر تعقيداً بدرجة بسيطة إذا كانت هناك نقطتان أو أكثر من نقاط البيانات لها نفس القيمة. وعند حدوث ذلك فإننا نحتاج لحساب الرتبة المرتبطة بهذه النقط مع القيم المساوية (انظر المربع 4 – 4 والمثال العملي 4 – 2).

ويمكننا أن نرى أنه عند الوضع بالترتيب الرتبي، فإن معظم الأشجار ذات الدرجات المنخفضة (أي بالحالة السيئة) من المواقع الملوثة (مظللة في هذا المثال العملي) بينما معظم الأشجار بالحالة الجيدة تأتي من مواقع نظيفة (وهي توجد بالقرب من قاع الجدول).

وهذا يتضمن أن الأشجار في الموقع النظيف لها درجات أعلى من الأشجار في الموقع الملوث. ولكن يوجد بعض التداخل بين درجات الحالة بين المواقع النظيفة والملوثة. ولمعرفة ما إذا كان هناك فرق ظاهر له دلالة إحصائية فإن الرتب الآن يمكن تجميعها لكل عينة مع حساب المؤشر الإحصائي الاختباري.

ومن مثالنا فإن القيمة الأقل U (21) يمكن مقارنتها مع الجدول المناسب للقيم الحرجة (انظر المساحة المظللة في الجدول 4 – 3).

ويمكننا أن نرى أنه حيثما كانت القيمتان n تساوي 10 فإن القيمة في الجدول 23 مع احتمال 0.05 و 16 مع احتمال 0.01. وقيمتنا المحسوبة 21 تقع بين هاتين القيمتين في الجدول، ولذلك فإن الاحتمال لدينا بين 0.05 و 0.01. أي أن هناك فرق له دلالة (الاحتمال P أقل من 0.05) في حالة الأشجار في نوعي المواقع.

ولاحظ أنه بمقدار ما تصغر القيمة U بمقدار ما تصغر الاحتمالات. وهذا عكس الحالة عندما نظرنا للقيم t للاختبار t.

ومن أجل تحديد أين الفرق فإننا نحسب قيم الوسيط والأشجار في المواقع النظيفة لها قيمة الوسيط 5 بينما النباتات في المواقع الملوثة لها قيمة الوسيط 3.5. ولذلك يمكننا تسجيل القيم n₂، n₁، U والقيمة P ونقول كما يلي:

الأشجار في المواقع النظيفة لها درجة أعلى للحالة بالمقارنة مع المواقع الملوثة.

وقيم الجدول العليا (بأحرف داكنة) لقيمة الاحتمال P = 0.05، بينما القيم الأقل لقيمة الاحتمالات P = 0.01.

وتذكر أيضاً عرض الوسيطات والمدى ما بين الإرباعيات سواء في النص أو في جدول أو برسم بياني باستخدام مخطط المربع والشارب (انظر الشكل 2 – 11 والذي تم رسمه باستخدام هذا المثال).

وفي حالة وجود فرق جوهري، فهناك طريقة أسرع لتحديد أي من العينات لها درجات أكبر وذلك بقسمة مجموع الرتب على حجم السنة للحصول على الرتبة المتوسطة لكل عينة. والعينة ذات متوسط الرتبة الأعلى تكون أكبر من العينة الأخرى بصورة لها دلالة إحصائية.

ولاحظ أن البيانات لحالة الأشجار في المثال العملي 4 – 2 مذكورة في عمود فردي مع عمود آخر لنوع الموقع.

ومن المحتمل أيضاً أن تكون هذه الطريقة هي طريقة إدخال البيانات عند استخدام برنامج كمبيوتر لحساب اختبارات مان ويتني U (انظر الجدول ب – 1 في الملحق ب بخصوص مزيد من التفاصيل لإدخال البيانات للتحليل الإحصائي باستخدام أجهزة الكمبيوتر).

ومع ازدياد حجم العينة ليصبح حجماً كبيراً، فإن توزيع الاحتمالات للمؤشر الإحصائي U في الاختبار سيصبح مماثلاً جداً للمؤشر z (والذي تحدثنا عنه في المربع 4 – 2).

وهناك صيغة حسابية لحساب z من U، وبحيث يكون من الممكن تقييم الدلالة الإحصائية بالنظر إلى الاحتمالات للقيمة z بدلاً من ذلك.

وتفاصيل هذه الخطوات لا يتم تغطيتها في هذا الكتاب – انظر النصوص مثل زار (1999) أو زيجيل وكاستيلان (1988) – وهي مذكورة لأن برامج الإحصاء تقدم عادة القيمة z وقيمة الاحتمالات P لها) وكذلك القيمة U. وإذا كان برنامج الكمبيوتر لديك يفعل ذلك فعندئذٍ عليك أن تسجل القيم P، z، U وكذلك n₂، n₁_.

وللحديث بصورة أكثر دقة، عندما تكون هناك قيم مرتبطة (كما في المثال العملي 4 – 2 حيث على سبيل المثال هناك مواقع عديدة لها قيمة ترتيب 9.5) فإن القيمة P للاحتمالات غير دقيقة بدرجة بسيطة.

وعدم الدقة هكذا يؤدي إلى أن تكون الاحتمالات أعلى مما هو مفروض وهكذا تؤدي إلى زيادة فرصة القبول المزيف للفرض الصفري (الخطأ من النوع 2). وبمقدار ما تزداد الرتب المرتبطة بمقدار ما يزداد عدم الدقة في حساب الاحتمالات.

ويمكن تطبيق عامل التصحيح والذي يستخدم التقريب للتوزيع z – انظر الاختبارات مثل زار (1999) أو زيجيل وكاستيلان (1988).

وإذا كان برنامج الكمبيوتر لديك يقدم القيم المصححة للارتباطات، فسجل عندئذ الاحتمال P المصحح والقيمة z.

وإذا كنت تقوم بالحسابات يدوياً، فإن عدم الدقة هكذا يمثل مشكلة فقط إذا كانت لديك نتيجة هامشية وليس لها دلالة إحصائية (أي أن الاحتمال P اكبر قليلاً من 0.05) وإذا كانت النتيجة ذات دلالة جوهرية أو إذا كانت P أكبر كثيراً من 0.05، فستظل هكذا حتى ولو تم تصحيح الارتباطات.

والرتب المرتبطة يمكن أيضاً في وضعها في الاعتبار بمجرد ترتيب البيانات واستخدام الاختبار t بمجرد ترتيب البيانات واستخدام الاختبار t على الرتب.

[KSAGRelatedArticles] [ASPDRelatedArticles]

الوسوم