الانحدار الخطي أم اختبار T. كيف تختار؟
\ غالبًا ما ننشغل بالضجة حول نماذج التعلم الآلي الرائعة واختراقات التعلم العميق، لكن دعونا لا نتجاهل الانحدار الخطي المتواضع.
\ ==في عالم LLM والبنى المتطورة، يلعب الانحدار الخطي دورًا حاسمًا بصمت، وقد حان الوقت لنسلط الضوء على كيف يمكن أن يكون مفيدًا حتى اليوم.==
\ لنتأمل سيناريو حيث تقدم شركة تجارة إلكترونية لافتة جديدة، ونهدف إلى تقييم تأثيرها على متوسط مدة الجلسة. لتحقيق ذلك، تم إجراء تجربة وجمع البيانات للتحليل. دعونا نحلل النتائج.
لنستخدم أداة مألوفة لهذه المهمة: اختبار t.
النتائج واعدة للغاية:
الارتفاع في المقياس هو ببساطة الفرق بين متوسطات العينة لمجموعات التحكم والعلاج. في حالتنا، الارتفاع المقدر هو 0.56 دقيقة، مما يشير إلى أن المستخدمين، في المتوسط، يقضون 33 ثانية أطول باستخدام منتجنا.
الآن، لنستخدم الانحدار الخطي مع متجه المعالجة (سواء تم عرض اللافتة الجديدة أم لا) كمتغير مستقل ومتوسط مدة الجلسة كمتغير الإخراج.
ثم نطبع ملخص نموذجنا:
\
\ والجدير بالذكر أن معامل متغير المعالجة يتوافق مع تقديرنا السابق للارتفاع البالغ 0.56. تجدر الإشارة إلى أن R-squared هو فقط 0.008، ولا نفسر الكثير من التباين بهذا النموذج.
هل هذه مصادفة أن الارتفاع الذي حصلنا عليه من اختبار t ومعامل المعالجة متماثلان؟ دعونا نتعمق في العلاقة.
\ دعونا نفكر فيما يعكسه متغير المعالجة. عندما يساوي 1، فإنه يشير إلى متوسط مدة الجلسة للمستخدمين الذين شاهدوا اللافتة؛ عندما يساوي 0، فإنه يشير إلى متوسط مدة الجلسة للمستخدمين الذين لم يروا اللافتة. هذا يعني أن متغير المعالجة (أو الميل بمصطلحات الانحدار الخطي) يدل على التغيير في المتوسط بين مجموعات التحكم والعلاج.
ما هي الفرضية الصفرية لمتغير المعالجة في الانحدار الخطي؟
ما هي الفرضية الصفرية عندما نطبق اختبار T للتجربة؟ إنها تمامًا نفسها.
وبالتالي، عند حساب إحصائيات t وقيمة p لفرضيات متطابقة، تظل نتائجنا متسقة ومتطابقة.
ومع ذلك، ما هو السبب وراء استخدام الانحدار الخطي؟ لا نريد فقط تعقيد الأمور.
\ أولاً، دعونا نفكر فيما إذا كانت المعالجة فقط هي المسؤولة عن التغيير في مقياسنا الأساسي.
\ في الواقع، قد لا يكون هذا دقيقًا تمامًا بسبب وجود تحيز الاختيار.
\ تحيز الاختيار في اختبار A/B هو نوع من الخطأ عندما يكون هناك فرق منهجي بين المجموعات التي يتم مقارنتها لا يرجع إلى الصدفة العشوائية، على سبيل المثال:
\
نشهد أن المستخدمين القدامى يتعرضون للافتة جديدة أكثر من العملاء الجدد.
\
التخصيص العشوائي الذي نستخدمه في اختبارات AB يساعدنا على تخفيفه، لكن من الصعب القضاء عليه تمامًا.
\ دعونا نصيغ كيفية تقدير التأثير الحقيقي.
ATE: متوسط تأثير المعالجة الذي نهدف إلى تقديره.
\ ATT: متوسط تأثير المعالجة للمعالجين. يمكننا أيضًا تسميته ACE: متوسط التأثير السببي. يمكننا بالفعل حسابه. إنه الفرق بين متوسطات العينة لمجموعات التحكم والعلاج.
\ SB: تحيز الاختيار الذي نهدف إلى تقليله.
\ كيف يمكننا تقليله؟
\ يسمح لنا الانحدار الخطي بإضافة متغيرات مشتركة/متغيرات مربكة. دعونا نجربها ونضيف كأحد المتغيرات المربكة متوسط مدة الجلسة للمستخدمين قبل التجربة.
ونطبع ملخص النموذج:
لقد ارتفع R-squared بشكل كبير! الآن، نفسر 86٪ من التباين.
\ تأثير معالجتنا الآن هو 0.47.
لذلك، لدينا تأثيران للمعالجة: 0.47 و 0.56؛ أيهما صحيح؟
\ في هذه الحالة، نعرف على وجه اليقين التأثير الحقيقي لأنني قمت بمحاكاة البيانات والارتفاع الحقيقي: 0.5
import numpy as np import pandas as pd from scipy import stats import statsmodels.api as sm np.random.seed(45) n = 500 x = np.random.normal(loc = 10 ,scale = 3, size= 2 * n) y = x + np.random.normal(loc = 2 , scale = 1 ,size = len(x)) # For 50% of users we simulate treatment effect treat = 1 * (np.random.rand(2 * n) <= 0.5) experiment = pd.DataFrame(x, columns=["covariate"]) experiment['metric'] = y experiment['treatment'] = treat experiment['noise'] = np.random.normal(size = len(experiment)) # Add noise and uplift to 'metric' for rows where 'treat' is equal to 1 # The real uplift is 0.5 experiment['metric'] = experiment.apply(lambda row: row['metric'] + 0.5 * row['treatment'] + row['noise'] if row['treatment'] == 1 else row['metric'], axis=1)
هذا يعني أن 0.47 أفضل من حيث الفرق المطلق وأقرب إلى عكس الارتفاع الفعلي.
استخدام الانحدار الخطي له المزايا التالية:
\ هل يمكننا استخدام الانحدار الخطي لاختبارات أخرى، مثل اختبار Welch t أو اختبار Chi-square؟
\ الإجابة البسيطة هي نعم. ومع ذلك، يجب علينا إجراء بعض التعديلات التي سنناقشها في المقالات القادمة!

![[تحليل] نظرة فاحصة على إدراج PNB Holdings التابعة لـ Lucio Tan في بورصة الفلبين](https://www.rappler.com/tachyon/2026/01/1thnwww4nv8.jpg)
