الرياضيات والهندسة

قياس التباين في البيانات ذات التوزيع الطبيعي بواسطة “الانحراف المعياري”

2012 استخدام الإحصاء لفهم البيئة

فيليب ويذر وبني أ.كوك

KFAS

الانحراف المعياري قياس التباين في البيانات ذات التوزيع الطبيعي الرياضيات والهندسة الهندسة

إن قياسات النزعة المركزية تصف أحد خصائص البيانات (أي ما يحدث عند منتصف العينة). ولكن هذا لا يقدم معلومات بخصوص التباين في البيانات.

والفرق بين أكبر وأصغر نقطة في نقاط البيانات (يسمى المدى) وهو يعطينا فكرة عن التباين.

ولكنه قد يتأثر تأثيراً كبيراً بالقيمة المتطرفة. ولنفترض أننا نسجل عدد الأشخاص في الساعة الذين يستخدمون ماكينة صرف الزجاجات مع تنظيم البيانات بترتيب تصاعدي:

22   16   16   15   15   14   14   14   14   13   13  12   12   11  11

 

ومن هذه البيانات يمكننا أن نرى هناك متوسط 14 شخص في الساعة يستخدمون ماكينة صرف الزجاجات.

وهناك حجم مناسب للتباين، والذي يمكننا أن نصفه باستخدام المدى 22 – 11 = 11 شخص في الساعة.

ولكن يمكننا أن نرى أن هذا المدى قد تأثر تأثيراً كبيراً بالقيمة المتطرفة 22 والتي تغطي على حقيقة أن معظم نقاط البيانات تقع بالفعل بين 11 و 16 شخص في الساعة (فرق 5 وهو حوالي نصف قيمة المدى الكامل).

ومن الناحية المثالية يمكننا أن نقوم بالقياس على أساس تجاهل القيم المتطرفة مع التركيز على أغلبية القيم والتي تقع في مكان ما في منتصف مجموعة البيانات.

وحيثما كانت البيانات ذات توزيع طبيعي يمكننا أن نحصل على مثل هذا القياس والذي يسمى الانحراف المعياري، والصيغة الحسابية له مبينة في المربع 2 – 3.

 

حساب الانحراف المعياري

الصيغة الحسابية للانحراف المعياري هي:

 

حيث:

X هي كل نقطة بيانات.

 = متوسط x.

n= حجم العينة

 

1- يتم أولاً حساب انحراف كل نقطة بيانات عن قيمة الوسط . وهذه العملية تخصص القيم الأكبر للبنود الأبعد من الوسط.

2-بعد ذلك فإن كل قيمة يتم تربيعها ، مما يجعل جميع القيم موجبة ويقدم ترجيحاً أكبر للانحرافات الأكبر عن الوسط.

 

3- يتم الآن تجميع القيم المربعة . وهذا يسمى مجموع مربعات الانحرافات عن الوسط – ويتم عادة اختصارها إلى إجمالي المربعات. فإذا كنت قد قمت بقياس المجتمع بأكمله، فعندئذٍ ستضع في الاعتبار عدد القياسات بالقسمة على n.

وهذا يؤدي إلى الحصول على تباين المجتمع وبالرمز 2σ. ولكن عادة ما يتم قياس عينة من المجتمع وستحتاج بدلاً من ذلك لحساب تباين (S2) في عينتك.

ولذلك فإنك تقسم مجموع مربعات الانحرافات عن الوسط على n – 1 (وهذه القيمة n – 1 تعرف باسم درجات الحرية، وسيتم شرحها بصورة أكبر في الفصل 3، المربع 3 – 1) وبالنسبة لحسابات الجيب فإن الرموز σn-1 و σn يتم استخدامها عادة لتمييز الانحرافات المعيارية للعينة والمجتمع.

 

4- يتم الآن حساب الانحراف المعياري (s من العينة أو σ من المجتمع) وذلك بالحصول على الجذر التربيعي للتباين لغرض تحويل القيمة رجوعاً إلى الوحدات الأصلية (أي أننا إذ كنا ننظر إلى قياسات الارتفاع بوحدات مم، فإن عملية التربيع الأولية قد قامت بتحويل الانحرافات من الوسط إلى مليمترات مربعة، وهكذا فإن الجذر التربيعي في النهاية يتحول رجوعاً إلى وحدات مم).

والتباين والانحراف المعياري يتم تسجيلها عادة في رقم 1 له دلالة أكبر من الوسط.

وإعادة التنظيم لهذه الصيغة كما يلي أسهم في الحساب اليدوي (انظر المثال العملي 2 – 1):

 

مثال إيضاح 2 – 1

حساب الانحراف المعياري (s) لمستويات ثاني أكسيد الكبريت في سقوط الأمطار

يقدم الانحراف المعياري مقياساً لدرجة تباين وتفاوت البيانات. والانحرافات المعيارية الأكبر (بالنسبة لحجم الوسط) تبين تبايناً أكبر في البيانات.

وحساب الانحراف المعياري لمستويات ثاني أكسيد الكبريت في سقوط الأمطار مبين في مثال الإيضاح 2 – 1.

وبالنسبة لمستويات ثاني أكسيد الكبريت فإن الوسط 0.81 مجم من الكبريت لكل لتر من مياه الأمطار والانحراف المعياري 0.165 مجم.

والوسط بالإضافة إلى انحراف معياري 1 (0.81 – 0.165 = 0.645 mg) مبينة بالتصوير في الشكل البياني للتوزيع الطبيعي في الشكل 2 – 7.

 

وبسبب الخصائص الحسابية للتوزيع الطبيعي، فإننا نعرف أن المساحة المحاطة بالخطوط المرسومة عند الوسط ± الانحراف المعياري تشمل 68.27% من نقاط البيانات.

وهذا يعني أننا إذ قمنا بالرسم العشوائي لنقاط البيانات من توزيعنا فإن كل نقطة سيكون احتمال 68.27% في أن تكون في المدى .

والاحتمال أو الفرصة لحدث في أن يحدث يمثل مفهوماً هاماً في الإحصاء.

وهناك وصف بسيط للاحتمالات مبين في المربع 2 – 4 والاحتمال تمت مناقشته بالمناقشة الإضافية في الفصل 3.

 

وهناك خاصية هامة أخرى للمنحنى الطبيعي وهي أن شكله الدقيق يعتمد فقط على قيمتين: الوسط والانحراف المعياري.

وبالنسبة لكل قيمة مختلفة من الوسط والانحراف المعياري هناك منحنى فريد في شكله (انظر الشكل 2 – 8).

وبغض النظر عن شكل المنحنى الطبيعي فإن 68.27% من نقاط البيانات تقع في المدى .

وهذا المفهوم يمكن أن يمتد لحساب أي نطاق حول الوسط. على سبيل المثال النطاق  (أي الخطوط المرسومة عند انحرافين معياريين من الوسط) وهي تحتوي على 95.44% من نقاط البيانات.

وبحكم التقليد فإننا نهتم عادة بالنطاق حول الوسط والذي يستبعد القيم الشديدة التطرف وحيث توجد أغلبية البيانات أي نسبة 95% المتوسطة لنقاط البيانات).

 

ويمكننا أن نجد هذا النطاق بأن نضرب الانحراف المعياري في 1.96 (أي أن 95% من البيانات تقع في النطاق 

وهذه القيمة 1.96 يتم الحصول عليها من جدول الاحتمالات للقيم z (انظر الجدول 2 – 3).

والاحتمالات قد تكون مشتركة. فاحتمال رمي العملة والحصول على صورة أو كتابة 1.0 (0.5 صورة و0.5 كتابة) ومن ناحية أخرى فإن احتمال إلقاء العملة مرتين والحصول على صورة في المرتين هو احتمال 0.25 (0.5 للصورة الأولى مضروبة في 0.5 للصورة الثانية).

وهكذا فإن الاحتمالات تضاف معاً عند الحصول على احتمال حدث معين أو حدث آخر. وهي مضروبة في بعضها عند الحصول على احتمالات حدث واحد والحدث الآخر أيضاً.

والجدول يقدم من الناحية الفعلية احتمالات القيم التي تقع خارج النطاق، ولذلك نكتشف القيم حيث تقع نسبة 95% من البيانات بالداخل فإننا نعود للجدول للاحتمال (P) 5% (وهي مماثلة مثل P = 0.05).

 

والنطاق حيث توجد 95% من نقاط البيانات لمثال مستويات ثاني أكسيد الكبريت في سقوط مياه الأمطار مبين بالتصوير في الشكل 2 – 9.

فإذ قمنا باختيار نقاط البيانات عشوائياً من هذا المجتمع فهناك احتمال كبير جداً (وباحتمال أكبر من 95% أو 0.95) لاختيارها من الجزء المظلل من الشكل البياني (أي أننا إذا قمنا باختيار م.

عشوائياً فإننا نتوقع أن 95 منها أن تكون في الجزء المظلل من الشكل البياني). وسيكون من غير المحتمل (أي باحتمالات أقل من 5% أو 0.05) أن نقطة البيانات التي قمنا باختيارها عشوائياً ستحدث في الأطراف غير المظللة من الشكل البياني (وهناك احتمال أقل من 2.5% أو 0.025 في اختيار قيمة من الطرف اليسار وأيضاً من الطرف الأيمن).

وإذا وجدنا مجموعة مياه الأمطار بمحتوى الكبريت 1.2 مجم لكل لتر (قيمة تحدث عند الطرف الأيمن) فيمكننا أن نقول أنه من غير المحتمل إحصائياً (أي باحتمال أقل من 0.05) أن تأتي هذه العينة من المجتمع الذي قمنا بمعاينته بأخذ العينات للحصول على هذا المنحنى.

وهذه القيمة 5% مقبولة بصفة عامة لدى الخبراء الإحصائيين لتمثيل حدث غير محتمل حدوثه نسبياً. وهذه القيمة ستصبح نافعة في الاختبارات الإحصائية التي سنذكرها لاحقاً

اظهر المزيد

مقالات ذات صلة

زر الذهاب إلى الأعلى
Loading cart ⌛️ ...
إغلاق
إغلاق