الرياضيات والهندسة

تحديد العلاقات بين المتغيرات بطريقة “تحليل الانحدار”

2012 استخدام الإحصاء لفهم البيئة

فيليب ويذر وبني أ.كوك

KFAS

تحليل الانحدار تحديد العلاقات بين المتغيرات الرياضيات والهندسة الهندسة

إذا كان لدينا سبب جيد للاشتباه في وجود علاقة خطية وسببية بين متغيرين و/أو إذا كنا نرغب في توقع قيم أحد المتغيرين من المتغير الآخر يمكن استخدام تحليل الانحدار لنجد معادلة لوصف العلاقة.

على سبيل المثال إذا كنا نقوم بقياس مستوى الصوت للمرور عند مسافات مختلفة من الطريق فإننا نتوقع أنه بمقدار البعد عن الطريق بمقدار ما يزداد الصوت هدوءاً.

ويمكننا أن نحصل على القياسات ونقوم بملاءمة خط مع البيانات واستخدامه لتقدير ضوضاء المرور على مسافة معينة من الطريق.

وإذا ظهر مخطط الانتشار لهذه البيانات أنه يتبع علاقة خطية، يمكننا أن نحدد رياضياً الخط الذي يحقق أفضل ملاءمة لهذه البيانات (ويسمى خط الانحدار).

 

وإذا كانت البيانات تظهر في شكل علاقة منحنية، يمكننا تحويل هذه البيانات على أحد المحورين أو كليهما (أيهما يقدم العلاقة الخطية الأفضل) وتحليل البيانات المحولة (أو استخدام أسلب مناسب لتحليل البيانات غير الخطية- انظر سوكال ورولف 1995).

وتذكر أن البيانات يجب أن يتم رسمها مع المتغير المستقل على المحور x (على سبيل المثال المسافة من الطريق) والمتغير التابع على المحور y (على سبيل المثال مستوى الضوضاء).

وأي خط من مستقيم يتم رسمه على الشكل البياني مع المحاور x و y يتم وصفه بأنه بصيغة بسيطة (انظر المربع 4-5).

 

ويتضمن أسلوب الانحدار الملاءمة الرياضية لخط مستقيم داخل سحابة من نقاط البيانات والتي ستسمح لنا عندئذٍ بتقدير القيمة y من أي قيمة x خاصة.

وتوجد أساليب محتملة عديدة لحساب الخط والطريقة الموصوفة هنا (الانحدار الخطي البسيط) هي الطريقة المستخدمة الأكثر شيوعاً.

إذا كانت جميع النقاط في مخطط الانتشار على خط مستقيم بدقة يمكننا أن نستخدم ببساطة مسطرة لتوصيل النقاط.

ولكن العلاقات التي ندرسها في الموضوعات البيئية نادراً ما تكون مستقيمة، على سبيل المثال الشكل 9-5 يبين الخط الأفضل ملاءمةً (حسابه مبين أدناه) لبيانات مستويات الضوضاء، وهذه تبين أنه على الرغم من أن هناك علاقة سالبة واضحة بين مستويات الضوضاء والمسافة من الطريق (أي المنحدرات الخطية إلى أسفل ودرجة الميل سالبة).

 

ولكن ما زال هناك بعض التشتت حول خط أفضل ملاءمة. والأسلوب الخاص بالانحدار الخطي البسيط يتضمن إيجاد قيم a (القطاع) وb (الميل) والذي يصف خط أفضل ملاءمة عبر سحابة من نقاط البيانات.

وهذا الأسلوب يفترض أن المتغير x (المستقل) معروف بدون خطأ أو تحت تحكم من الباحث (وفي هذه الحالة فإن هذا الافتراض يفترض أنه بسبب اختيار المسافات بعيداً عن الطريق: وللمتضمنات الأخرى الناتجة عن ذلك، انظر الافتراضات الخاصة بالانحدار الخطي البسيط في جزء لاحق في هذا الفصل.

والمتغير y قد يتفاوت لكل قيمة x وهكذا فعلى مسافة 100 م من الطريق تم الحصول على قراءات عديدة y ومتوقع أن القيم y تكون بالتوزيع الطبيعي.

توجد خطوتان رئيستان: الأولى ملاءمة الخط ثم يتم حساب الدلالة الإحصائية للانحدار. وحيث أننا هنا نرغب في تحديد مقدار التغير في y الذي يتحدد من x فإن هذا الأسلوب يسمى في بعض الأحيان انحدار y على x.

يتم حساب خط أفضل ملاءمة وبحيث يمر عبر متوسط x وy (أي الإحداثيات  ) وبحيث أن المسافة الرأسية من كل نقطة إلى الخط صغيرة بقدر الإمكان. ومسافة كل نقطة من الخط تسمى المسافة المتبقية.

 

وكما يمكننا أن نرى في الشكل 10-5 فإن تحريك الخ يؤدي إلى نقص المسافة المتبقية لبعض النقاط ولكن مع الزيادة لنقاط أخرى. ويمكن رسم عدد لا نهائي من الخطوط على الشكل البياني وجميعها ذات محور حول الإحداثيات ( )  ولكن خط أفضل ملاءمة هو الخط حيث يوجد أقل إجمالي للمتبقيات المربعة.

والأسلوب الخاص بإيجاد الخ الخاص بأقل إجمالي للمتبقيات المربعة يسمى خط أصغر المربعات، وتربيع المسافات المتبقية يضع وزناً أكبر للنقاط البعيدة عن الخط ويؤدي في نفس الوقت أن تصبح جميع القيم موجبة.

يتم الحصول على الميل (b) لخط الانحدار بقسمة إجمالي حواصل الضرب المتقاطعة (المذكورة في الجزء الخاص بمعاملات بيرسون لترابط عزم حاصل الضرب في مربع 1-5) وذلك في إجمالي مربعات x (والمذكورة أول مرة في المربع 3-2).

ويمكن بعد ذلك حساب المقطع (a) باستبدال القيمة b بقيم متوسط x وy في الصيغة الخاصة بالخط المستقيم. وصيغ حساب a وb مبينة في المربع 5-5.

 

الميل (b) يعرف أيضاً باسم معامل الانحدار. ومما هو جدير بالملاحظة في هذه المرحلة أن الصيغة الحسابية لحساب b لها بعض الأوجه المماثلة لتلك المستخدمة سابقاً في حساب r (معامل ترابط بيرسون لعزم حاصل الضرب: المربع 1-5).

وفي الانحدار فإن القيمة r نفسها ليس لها معنى ويجب ألا تذكر في الجزء الخاص بالنتائج في تقرير المشروع. وذلك لأنها تفترض أن كل من القيم x و y يتم توزيعها عشوائياً- وهو الافتراض الذي لا يتم تحقيقه في الانحدار حيث أن القيم x تكون تحت تحكم الباحث.

ولكن معامل التحديد (r2 أو كنسبة مئوية R2) نافع في تعريف نسبة التغير الإجمالي في y والذي يتم تفسيره بالتغير في x. وعلى الرغم من أنها يمكن حسابها باستخدام مربع معامل الترابط (المربع 2-5) وبمجرد حساب جميع المكونات المطلوبة لتحليل الانحدار فإن r2 يمكن حسابها مباشرة بطريقة أبسط (انظر المربع 7-5 لاحقاً).

 

وفي المثال العملي 3-5 أ، فإن كل من الميل والمقطع يتم حسابها من بيانات للعلاقة بين الضوضاء والمسافة من الطريق. وإننا نحصل على رقم سالب للقيمة b وهو 0.146-.

وهذا يدلنا على وجود علاقة سالبة بين x وy: أي أن y تنخفض بمقدار 0.146 لكل زيادة وحدة في x.

وهكذا فبمجرد حساب المقطع (a) بالقيمة 94.29 فإن الصيغة الحسابية للخط (والمبينة في الشكل 9-5) ستصبح y= 94.29 – 0.146x

 

ولغرض ملاءمة خط الانحدار مع رسم الانتشار فإننا نحتاج لحساب إحداثين مع توصيلهما. وإننا نعرف بالفعل قيم اثنين من هذه الإحداثيات وهما: المقطع (0,a) ومتوسطات x وy ( ) .

ولكن عند رسم الشكل البياني يدوياً فسيكون أكثر دقة أن تكون النقاط بعيدة عن بعضها. وفي المثال  العملي 3-5 أ نتخذ القيم x=20,140 ويتم حساب الإحداثيات وهي (20 و91.37) و(140 و73.85). وهذه يمكن رسمها على مخطط الانتشار ويتم توصيل النقاط للحصول على الخط المبين في الشكل  9-5.

والخط الذي يتم رسمه يجب ألا يتجاوز الحدود المفروضة في البيانات المقاسة. وذلك لأنه لا توجد لدينا معلومات بخصوص شكل العلاقة على المسافات أقل من 20م أو أكثر من 140م.

 

وفي الواقع فإننا قد نتوقع أن يتوقف الخط عن الانحدار ويعود للتسطح بمجرد أن تصبح المسافة من الطريق كافية لأن تكون ضوضاء المرور لا تمثل مشكلة. ولاحظ متضمنات ذلك وهي: أننا نفترض أن العلاقة خطية فقط في حدود عينة لبياناتنا.

ولاحظ أن البيانات في المثال العملي 3-5 أ مذكورة في عمودين منفصلين (1 كل متغير) وكل صف يمثل عينة ضوضاء فردية. وهذا النموذج للبيانات من شأنه أن يكون مناسباً للتحليل على برامج الكمبيوتر (انظر الجدول ب-3، الملحق ب).