רגרסיה לוגיסטית

הנחות תקפות:

  • קידוד בעל משמעות של ערכי התלוי לקבוצות
  • ספציפיקציה – הכללת כל המשתנים הרלבנטיים במודל, הוצאה של כל המשתנים הבלתי רלבנטיים (אינדיקציה – טעויות מתוקננות גבוהות של מקדמי הרגרסיה הבלתי רלבנטיים),
  • אין תלות בין הטעויות
  • אין טעויות מדידה (או טעויות מדידה קטנות)
  • קשר לינארי בין ב"ת לבין logit (odds) של התלוי
  • תוספתיות – העדר השפעות הדדיות בין המשתנים
  • העדר מולטיקולינריות – השפעה הדדית בין הב"ת פוגעת במהימנות וניתנת לאבחנה ע"י טעויות מתוקננות גבוהות של המקדמים.
  • העדר טעויות קיצוניות (outliers) – טעויות מעל 2.58 ס"ת >> מעל רמה 0.1 הן טעויות קיצוניות שיש להורידן.
  • שיטת ההערכה ברגרסיה הלוגיסטית (MLE – Maximum Likelihood Estimation): מתבססת על מדגמים גדולים מכיוון שבמצב בו קיימים מקרים מועטים בכל קטגוריה המהימנות יורדת משמעותית.
  • מדגם הולם – בכל התאים חייב להיות ערך שכיחויות גדול מ 1 ורק ב- 20% קטנים מ- 5.

אין שימוש בהנחות הבאות:

  • לינאריות – קשר לינארי בין ב"ת לתלוי
  • התפלגות נורמלית של ערכי התלוי
  • שונות קבועה של טעויות
  • התפלגות נורמלית של הטעויות
  • הב"ת אינם צריכים להיות אינטרוואלים
  • הב"ת אינם צריכים להיות ללא מגבלות

מתי משתמשים:1.    כאשר קיימות בעיות במילוי הנחות מרכזיות ברגרסיה הלינארית: הומוסקדסטיות (שונות קבועה של הטעויות), והתפלגות נורמלית של הטעויות – הלוגיסטית אינה מבוססת על הנחות אלו ולכן ניתן להתאים את המשתנה לרגרסיה זו ולהשתמש בה ע"מ לפתור בעיה זו.

2.    כאשר רוצים לבחון ברגרסיה משתנה תלוי נומינאלי\איכותני (למשל דמוקרטים-רפובליקאים;

3.    כאשר רוצים לבחון משתנה תלוי אורדילי בינארי (למשל – הצלחה\כשלון).

4.    כאשר בוחנים משתנה בינארי ברגרסיה לינארית עשויים הערכים להיות פחות מ- 0 או יותר מ- 1 – הללו אינם קבילים תיאורטית.

עקרון פעולהמשוואת הרגרסיה: logit(P) = a + bX הצלחה = 1 כשלון   = 0התוצאה\ניקוד = מספר ההצלחות. שיעור ההצלחות  מכלל המדגם (P) = ממוצע ההתפלגות (בין 0 ל- 1)= ההסתברות להצלחה. (למשל n=100, 20 הצלחות >>> ממוצע התפלגות 0.2, הסתברות להצלחה = 20%).דוגמה לגרף רגרסיה לוגיסטית –גובה (ב"ת) כמנבא מין (תלוי)
נקודות העולות מהגרף:

א.      ציר ה- Y מבטא שיעורים שונים של ערך 1 (כלומר ההסתברות שהוא יקרה).

ב.       כל נקודה בקו הרגרסיה מבטאת את השיעור הממוצע של ערכי 1 מכלל המקרים על ערך מסויים של X (כלומר ההסתברות בגובה מסויים לערך 1).

ג.        בהתאם לקו הרגרסיה ניתן לראות עבור כל ערך של X את שיעור הגברים\נשים. (בגובה 80 אינצ' ישנם 95% גברים ורק 5% נשים).

ד.      קו הרגרסיה אינו לינארי.

ה.      אף תצפית (עיגולים ירוקים) אינה נופלת על קו הרגרסיה– הן נופלות על אפס או אחד.

חישוב ההסתברות לערך 1 – ממוצע התלוי (P):              אוP = הסתברות לערך 1 בתלוי (ממוצע Y, שיעור ה- 1 במדגם)e = הבסיס של הלוגריתם הטבעי (2.718)a = p  כאשר X = 0b = בכמה ישתנו הסבירויות לערך 1 (p) כאשר הבלתי תלוי (X) משתנה ביחידה אחת. (ניתן לקבל ערכים מנורמלים או לא מנורמלים של b כמו ברגרסיה לינארית). מכיוון שהיחסים בין המשתנים ברגרסיה הלוגיסטית אינם לינארים – ל- b אין משמעות ישירה כפי שקיימת לו ברגרסיה הלינארית (אלא הוא מצביע על כיוון בלבד). יש לשים לב כי  

חישוב הסיכוי לערך 1 (הצלחה): 

פונקצית הפסד (loss func.):מודדת התאמה בין המודל המתמטי והמידע בפועל. רגרסיה לינארית – עקרון התאמה: סכום ריבוע הטעויות המינימלירגרסיה לוגיסטית – עקרון ההתאמה: סבירות מירבית (maximum likelihood) ערכי המשוואה (b, a) המחושבים הם בעלי הסבירות הגבוהה ביותר. החישוב מבוצע עפ"י עקרון numerical analysis: הערכה התחלתית שרירותית של הפרמטרים, חישוב סבירות התחלתית לפרמטרים (step 0) שהוערכו, לאחר מכן שיפור הפרמטרים של הניבוי במקצת ולאחר מכן חישוב מחודש של הסבירות. התהליך חוזר על עצמו עד שמפסיקים אותו (לרוב כאשר השינויים קטנים או לאחר מספר מסויים של מחזורים.   הסתברות וסיכוייםההסתברות להיות גבר בגובה מסויים היא 0.9, כלומר הסיכוי להיות גבר הוא 0.9/0.1 = 9 לאחד.ברגרסיה לוגיסטית הקבוע הוא לוגיט >> הלוגריתם הטבעי של הסיכויים (odds), והוא מחושב בנוסחה הבאה:

המרת הסיכויים להסתברות מבוצעת באופן הבא: מדדים

מדד חישוב תפקיד פרשנות
שיעור חיזוי כולל התחלתי(step 0) התפלגות המקרים בין ערכי התלוי>> כלומר ניחוש "עיוור" נקודת מוצא להשוואה במדגם בו 40% גברים 60% נשים סבירות התחלתית להיות גבר (ללא ב"ת) היא 0.6
שיעור חיזוי כולל  למודל (step 1) עד כמה הבלתי תלויים מצליחים לנבא את התפלגות המקרים בתלוי 1.שיעור ניבוי כולל – האם גבוה?2. השוואה האם קיים שיפור משמעותי בין ניבוי התחלתי וסופי  במידה ואין שיפור (או אף נסיגה) – מצביע על יכולת נמוכה של הב"ת לאתר שונות בתלוי>> מודל גרוע. שיפור משמעותי>> מודל טוב

שיעור חיזוי לקטגוריות התלוי

השוואה בין step 0 ל- step 1 כמו בשיעור החיזוי הכולל השוואה בין הקטגוריות – האם הב"ת משפיע על שניהם במידה ויש שיפור בשיעור הניבוי בקטגוריה ראשונה ובשניה לא – הב"ת משפיע רק על הראשונה ונדרשים משתנים נוספים.
-2LL לוגריתם טבעי של ההסתברות *2- מודד התאמה של המודל לנתונים ומובהקות המודל ככל שהוא יותר גדול כך התאמת המודל לנתונים קטנה יותר
יחס סיכויים

Exp (x)

היחס בין סיכוי להצלחה לסיכוי לכשלון (0) מודד עד כמה הסיכוי להצלחה (1) גדול מהסיכוי לכישלון י"ס = 16הסיכוי להצלחה גדול פי 16 מכשלון
מבחן Wald מבחן מובהקות למקדמי הרגרסיה בסיס ל- sig  
R2 שונות מוסברת מקורבת חוזק ההשערה שבבסיס המחקר ככל שיותר גדולה – המודל יותר טוב

יחס סיכויים – דוגמא:מחקר הבודק את השפעת המגדר על בחירת מועמד לנשיאות.תלוי: שני מעומדים 1 ו- 2 ב"ת: גבר = 1, אישה = 0, כאשר הלוגי'ט לנשים עבור מועמד 1 = 0.5 >>> יחס הסיכויים exp(0.5) = 1.649 >>> ניתן לומר שהסיכוי שאישה תבחר במעומד 1 ביחס למועמד 2 גדול פי 1.649 מהסיכוי שגבר יבחר בו. אזהרה: לא ניתן לתרגם קביעה זו ישירות למונחים של שכיחויות.  מושגיםשיעור החיזוי הכולל  – להשוות בין זה שבהשערת האפס (קרי בלי הבלתי תלויים) לבין זה שסטפ 1 – במידה ואין שיפור משמעותי קשה לאתר שונות בתמיכה באי-לגליזם על בסיס מידת הקיצוניות.שיעור "פגיעות" – מספר הניבויים הנכונים\גודל המדגםרגישות – שיעור הניבויים הנכונים בקטגוריית ההתייחסות של התלויספציפיות – שיעור הניבויים הנכנונים בקטגוריה מסוימת של התלוישיעור שגוי חיובי – שיעור טעויות כאשר התלוי צריך להיות 1 אבל הוא 0 בפועל מתוך כלל המקרים בהם התוצאה היא 0. שיעור שגוי שלילי – שיעור טעויות כאשר התלוי צריך להיות 0 אבל הוא 1 בפועל מתוך כלל המקרים בהם התוצאה היא 0. הסטוגרמת ההסתברויות החזויות – "classplot באמצעותה ניתן להעריך ניבויים נכונים ומוטעים. 1) U-shaped distribution מעידה על כך שניתן להבחין בין הניבויים >> המודל מתאים לנתונים, התפלגות נורמלית – רוב הניבויים קרובים לנקודת החיתוך >> התאמה לא טובה. 2)מיעוט טעויות – מודל טוב.  

מודעות פרסומת