מושגים עיקריים

מדד – משתנה או שאלה ספציפית המוכנס לניתוח הגורמים (למעשה זהו משתנה המוכנס למודל כאשר מפעילים את פקודת ניתוח הגורמים ב- SPSS). לכל משתנה כזה נותנת הרצת ניתוח הגורמים ערך קומונליות וערכי טעינה (ראו בהמשך).  

ניתוח גורמים מגשש – משמש לאיתור המבנה בתוך סט גדול של משתנים. ההנחה היא כי כל אינדיקטור (מדד) יכול להיות בתוך כל גורם. אין תיאוריה מקדימה לתהליך.

ניתוח גורמים מאשש – משמש לקבוע אם מספר הגורמים והטעינות של האינדיקטורים מאששים את מה שחזוי על בסיס תיאוריה מקדימה. האינדיקטורים נבחרים על בסיס התאוריה – ולכן תנאי לניתוח זה הוא לשער מראש על פיה התיאוריה כמה גורמים יהיו לנו ורצוי גם -כיצד יתחלקו המדדים בינהם (כלומר אילו מדדים יהיו ביחד ואילו לא).

גורמים (פקטורים): משתנים סמויים – מימדים – המתאפיינים כמקבצי משתנים (מחושבים בניתוח הגורמים). הללו מייצגים את שונות משותפת גבוהה יחסית של קבוצות משתנים, ומתעלמים משונות יחודית.

רכיבים (קומפוננטס): מייצגים גם שונות משותפת וגם שונות יחודית. אלו למעשה הגורמים לפני שנערך בהם ניפוי המשתנים בעלי יחודיות גבוהה (הטורים ה- "גולמיים" שבטבלאות הטעינה).

 טכניקות שונות לביצוע ניתוח הגורמים:PCA – ניתוח מרכיבים עיקריים: השיטה הנפוצה ביותר לניתוח גורמים,  בה מחפשים קומבינציה לניארית של משתנים המבטאת את מירב השונות המשותפת בינהם. ולאחריה קומבינציה שניה המבטאת שונות שנשארה וכיו"ב.

קיימות שיטות נוספות לניתוח גורמים:  PFA ניתוח גורמים עקריים (נקרא גם principal axis factoring):  מחפש את המספר הקטן ביותר של הגורמים בעלי שונות משותפת, ועוד מספר שיטות אחרות.

 קומונליות (Communality, h2): מודדת את המתאם הריבועי המרובה לכל מדד כתלוי, כאשר הגורמים משמשים כבלתי תלויים. היא מבטאת את שיעור השונות במדד מסויים המוסבר ע"י כל הגורמים ביחד, וניתן לפרשה גם כמהימנות האינידיקטור הבודד (מקביל בעיקרון לתפקידו של אלפא קורנבך בגיבוש סולם משתנים). כאשר יש לאינדיקטור מסויים קומונליות נמוכה יחסית >> סביר כי ניתוח הגורמים לא יעבוד טוב עבור אותו אינדיקטור, ולכן היא נותנת תמיכה להורדתו מהמודל (כמובן, תוך הסתמכות על טעינות הרוטציה כבסיס עיקרי לצעד זה). למרות שלרוב רמת הקומונוליות  נותנת אינידקציה למשמעותיות המדד בטעינה הרי שלא תמיד זהו המקרה ולכן לא ניתן להתבסס עליה בהורדת או השערת מדד מסויים. קומנליות גדולה יותר מ- 1 מצביעה על ערך מזוייף  ועשויה להעיד על מדגם קטן מידי. למעשה הקומונליות היא סכום השונויות המוסברות עבור כל הפקטורים המובהקים (כזכור משמשים כבלתי תלויים) במדד הספציפי לו היא מתייחסת.

יחודיות – (Uniqueness, 1 – h 2 ) – מלוא יכולת השונות של המדד (1) מינוס הקומונליות, מבטאת את שונותו היחודית.

איגנווליו (Eigenvalues) – מודד את השונות בכל המדדים הנכללת בגורם מסויים. גורם בעל איגנווליו גבוה מ- 1 יחשב כמובהק ולכן יוצג בטבלאות הטעינה. איגנווליו מבטא את מובהקות הגורם ביחס לגורמים אחרים במודל והחשיבות ואת החשיבות של גורם נתון ביחס למדדים: גורם בעל איגנווליו נמוך תורם מעט להסבר השונות במדדים ומכאן שניתן להתעלם ממנו כגורם עודף. הערה: לא ניתן להשוות בין איגנווליואים של גורמים ממודלים שונים מכיוון שערך האיגנווליו תלוי במספר המדדים במודל. האיגנווליו אינו מודד שונות משותפת אלא היחס בין השונות המשותפת בגורם לבין כלל השונות

שיעור השונות : בטבלת האיגנווליוס מצויינים שיעורי השונות במדדים לכל גורם מסך כל השונות שבמודל. ככל גורם מסויים אחראי לשיעור גבוה יותר מהשונות הכוללת כך חשיבותו עולה.

 טעינת המרכיבים (נקראת טעינת גורמים בשיטות שאינן PCA):

מקדמי המתאם שבין המדדים (בשורות) לבין הגורמים (הטורים). ריבוע הטעינה של מבטא את שיעור השונות במדד הנתון המוסברת ע"י הגורם (למשל טעינה של 0.600 מבטאת 36% שונות מוסברת במדד ע"י הגורם>> 0.6*0.6*100=36%). למציאת השונות המוסברת בכל המדדים שבגורם יש לסכם את ריבועי הטעינות ולחלק במספר המדדים).

ציוני הגורמים (component scores) – הציונים של המקרים בפקטור מסוים מאפשרים איתור מקרים חריגים (outliers) וגם כמדדים במודל עוקב.

קביעת מספר הגורמים: קריטריון קייזר – הורדת כל הגורמים מתחת לאיגנווליו 1.0. זהו הקריטריון המקובל. סקרי פלוט – גרף המציג את הרכיבים עפ"י ערך האיגן ווליו. הורדת כל המקרים לאחר ה- "מרפק".

רוטציות – משמשות להפיכת התוצאות למובנות יותר ולכן משמשות בדרך כלל לפרשנות של הגורמים. הרוטציה משנה את האיגנווליו של הגורם והשיעור השונות המוסברת שלו. מכאן שניתן לייחס משמעויות שונות לפקטורים שונים עפ"י הרוטציה בה משתמשים.

ללא רוטציה – מצב בו קיים מקסום של ריבוי הטעינות ולכן מביא למצב בו בגורמים מסבירים את השונות הרבה ביותר האפשרית. עם זאת קשה לפרש את התוצאות מכיוון שהמדדים נוטים להטען בכמה גורמים. המחשה בציור הבא:


רוטציה אורתוגונלית (בשיטת ורימקס) – מבצעת מקסום של השונות של הטעינות של גורם מסויים (בטורים) בכל המדדים (שורות) >>> מאפשרת הבחנה בין המדדים בפקטורים השונים (יהיו כאלו שיטענו בפקטור מסויים ויהיו בפקטור אחר). תוצאתה מספר גורמים מובחנים שאינם קשורים זה בזה. רוטציה זו מתאימה למצב בו עפ"י התיאוריה לא אמור להיות קשר בין הגורמים ולכן היא מתאימה לגיבוש מספר משתנים שונים (סולמות) שישמשו לרגרסיה מכיוון שלא צפויה בעיית מולטיקולניריות).  
רוטציה אלכסונית (אובליק) – מאפשרת לגורמים להיות בעלי קורלציה אחד לשני ולכן נדרשת התייחסות למטריצת קורלציה בין גורמים (factor correlation matrix)הגורמים השונים המיוצרים בה לא מתאימים לשימוש במודל הרגרסיה בשל בעית מולטיקולינריות אפשרית. היא מיועדת עבור מצבים בהם ההנחה התיאורטית היא כי קיימת תלות בין הגורמים.  הצדקות לרוטציה אלכסונית:א.   היא מספקת מידע נוסף לגבי הגבולות של מקבץ המדדים וניתן לאתר בקלות מדדים מרכזיים עפ"י טעינות גבוהות שלהם.

ב.    ניתנות  קורלציות בין הגורמים ולכן ניתן להעריך את מידת התלות בין הגורמים.

ג.     טענה אפסטימולוגית – בעולם האמיתי לא ניתן לבדד בין תופעות (המיוצגות ע"י גורמים) ולכן נכון יותר להשתמש ברוטציה מסוג זה היכול לבטא את הקשר בינהן.

ד.    ניתן לבחון את הקשרים בין הגורמים בסדר שני – כלומר בין הגורמים שברוטציה האובליקית ניתן להריץ שוב ניתוח גורמים ולראות יחסים יותר כלליים ומקיפים בינהם הקשורים לתופעה הנחקרת.

כאשר כותבים פרק ממצאים בדו"ח מחקר של ניתוח הגורמים מירב ההתייחסות צריכה להיות לרוטציה  –הצגת וניתוח הסיבות להתקבצות המדדים בגורמים מסויימים, הסיבות להורדת מדד מסויים או לצורך במדד החסר במודל. ההתייחסות צריכה להתבסס על התיאוריה, ביחס למטרת המודל (איחוד בין תחומי תוכן וכד').

מטריצת מבנה (structure matrix) היא מטריצת הטעינה ברוטציה אורתוגונלית

מטריצת דפוסים (pattern matrix) – מכילה מקדמים המכילים את התרומה היחודית.

מטריצת טעויות ( resudual matrix)- ערכים נמוכים או זניחים במטריצה זו מעידים על מודל איכותי של ניתוח גורמים. מטריצת קורלציות נבנות מחדש (reproduced correlation matrix) – סיכום הטעינות של המדדים בכל הפקטורים.

מודעות פרסומת

הנחות – תנאים להפעלה

  1. אין בעיות ספציפיקציה ובעית מדידה: כלומר, כל המשתנים הרלבנטים בפנים וכן אין בעיות מדידה היוצרות הטיה סיסטמתית של הנתונים (מהימנות). הערה:– הורדה או הוספה של משתנים לאחר ההרצה הראשונית של  ניתוח גורמים תשפיע משמעותית על ניתוח הגורמים לכן לאחריה יש להריצו שוב, בכדי לודא שהגורמים שהתקבלו עדיין נמצאים\חזקים.

  2. אין מקרים חריגים (outliers) (מצויים במרחק לא נורמלי ממקרים אחרים). זאת מכיוון שהם עשויים להשפיע על קורלציות ולכן לעוות את ניתוח הגורמים.
  3. הנחת מידע אינטרוואלי – ניתן להשתמש במשתנים אורדנלים שאנו מניחים כי המרווחים בין הקטגוריות שלהם הם קבועים במקורב (כלומר אין מרווחים לא סדירים בינהם).
  4. מניחים כי הקשרים בין המשתנים לינארים – לכן נדרש סינון של משתנים שהקשרים בינהם הם בעלי טרנספורמציות לא לניאריות. הנחה זו חשובה בעיקר במדגמים קטנים.
  5. מנחים כי קיימת קרבה תיאורטית בין המדדים בתוך מקבצי מדדים המוכנסים למודל.
  6. רצוי כי תהיה רמה מסוימת של מתאמים בין המדדים אחרת כל מדד יהיה גורם נפרד.
  7. הגורמים חייבים להיות בעלי תוקף נראה או (עדיף) מעוגנים בתיאוריה.
  8. מדגם בגודל מספר – דרישת מינימום – יותר מקרים מגורמים.

מהו ניתוח גורמים

ניתוח גורמים היא שיטה המאפשרת זיהוי זיקות והבדלים בין קבוצות משתנים כאשר משתמשים בסט משתנים רחב. לדוגמא, כאשר אנו מקבלים תוצאות שאלון ובו כמה עשרות שאלות, המייצגות מגוון משתנים, אנו יכולים להריץ ניתוח גורמים וכך לזהות קשרים והבדלים בין קבוצות שאלות אלו, ולאור זאת להסיק על הקשרים בין משתני המחקר. ניתוח הגורמים משמש גם לצמצום מספר רב של שאלות ומשתנים לסט ובו משתנים בודדים (לכן נמצא ב- SPSS תחת קטגוריית Data reduction)

מתי נשתמש בניתוח גורמים

ניתוח גורמים מאפשר איתור המבנה הסמוי של קבוצות משתנים. הוא ממיר מסט משתנים רחב לסט גורמים מצומצם (ובתהליך זה אינו מניח כי קיים משתנה קבוע). הוא משמש למטרות הבאות:

·      צמצום מספר גדול של  משתנים למספר גורמים מצומצם בכדי למנוע הרצה נפרדת של משתנים אלו (נגיד בתוך מודל רגרסיה לינארית).

·      בחירת קבוצת משתנה של משתנים מסט גדול יותר המתאימים ביותר (במתאם פנימי בינהם) לשמש כגורם אחד.

·      טיפול במולטיקולינריות באמצעות יצירת סט פקטורים (גורמים) מובחנים בינהם.

·      תיקוף סולם או אינדקס ע"י הדגמה כי מרכיביו קשורים\מתלכדים לגורם אחד.

·      צידוק להפחתת מספר בדיקות ע"י אינדיקציה לכך שמבחנים מרובים מודדים את אותו גורם.

·      איבחון מקבצי מקרים וטעויות קיצוניות (outliers)

·      קביעת רשת של קבוצות חברתיות ע"י בדיקה אלו סוגי אנשים מתקבצים יחד (ע"י שימוש ב Q-mode).

רגרסיה לוגיסטית

הנחות תקפות:

  • קידוד בעל משמעות של ערכי התלוי לקבוצות
  • ספציפיקציה – הכללת כל המשתנים הרלבנטיים במודל, הוצאה של כל המשתנים הבלתי רלבנטיים (אינדיקציה – טעויות מתוקננות גבוהות של מקדמי הרגרסיה הבלתי רלבנטיים),
  • אין תלות בין הטעויות
  • אין טעויות מדידה (או טעויות מדידה קטנות)
  • קשר לינארי בין ב"ת לבין logit (odds) של התלוי
  • תוספתיות – העדר השפעות הדדיות בין המשתנים
  • העדר מולטיקולינריות – השפעה הדדית בין הב"ת פוגעת במהימנות וניתנת לאבחנה ע"י טעויות מתוקננות גבוהות של המקדמים.
  • העדר טעויות קיצוניות (outliers) – טעויות מעל 2.58 ס"ת >> מעל רמה 0.1 הן טעויות קיצוניות שיש להורידן.
  • שיטת ההערכה ברגרסיה הלוגיסטית (MLE – Maximum Likelihood Estimation): מתבססת על מדגמים גדולים מכיוון שבמצב בו קיימים מקרים מועטים בכל קטגוריה המהימנות יורדת משמעותית.
  • מדגם הולם – בכל התאים חייב להיות ערך שכיחויות גדול מ 1 ורק ב- 20% קטנים מ- 5.

אין שימוש בהנחות הבאות:

  • לינאריות – קשר לינארי בין ב"ת לתלוי
  • התפלגות נורמלית של ערכי התלוי
  • שונות קבועה של טעויות
  • התפלגות נורמלית של הטעויות
  • הב"ת אינם צריכים להיות אינטרוואלים
  • הב"ת אינם צריכים להיות ללא מגבלות

מתי משתמשים:1.    כאשר קיימות בעיות במילוי הנחות מרכזיות ברגרסיה הלינארית: הומוסקדסטיות (שונות קבועה של הטעויות), והתפלגות נורמלית של הטעויות – הלוגיסטית אינה מבוססת על הנחות אלו ולכן ניתן להתאים את המשתנה לרגרסיה זו ולהשתמש בה ע"מ לפתור בעיה זו.

2.    כאשר רוצים לבחון ברגרסיה משתנה תלוי נומינאלי\איכותני (למשל דמוקרטים-רפובליקאים;

3.    כאשר רוצים לבחון משתנה תלוי אורדילי בינארי (למשל – הצלחה\כשלון).

4.    כאשר בוחנים משתנה בינארי ברגרסיה לינארית עשויים הערכים להיות פחות מ- 0 או יותר מ- 1 – הללו אינם קבילים תיאורטית.

עקרון פעולהמשוואת הרגרסיה: logit(P) = a + bX הצלחה = 1 כשלון   = 0התוצאה\ניקוד = מספר ההצלחות. שיעור ההצלחות  מכלל המדגם (P) = ממוצע ההתפלגות (בין 0 ל- 1)= ההסתברות להצלחה. (למשל n=100, 20 הצלחות >>> ממוצע התפלגות 0.2, הסתברות להצלחה = 20%).דוגמה לגרף רגרסיה לוגיסטית –גובה (ב"ת) כמנבא מין (תלוי)
נקודות העולות מהגרף:

א.      ציר ה- Y מבטא שיעורים שונים של ערך 1 (כלומר ההסתברות שהוא יקרה).

ב.       כל נקודה בקו הרגרסיה מבטאת את השיעור הממוצע של ערכי 1 מכלל המקרים על ערך מסויים של X (כלומר ההסתברות בגובה מסויים לערך 1).

ג.        בהתאם לקו הרגרסיה ניתן לראות עבור כל ערך של X את שיעור הגברים\נשים. (בגובה 80 אינצ' ישנם 95% גברים ורק 5% נשים).

ד.      קו הרגרסיה אינו לינארי.

ה.      אף תצפית (עיגולים ירוקים) אינה נופלת על קו הרגרסיה– הן נופלות על אפס או אחד.

חישוב ההסתברות לערך 1 – ממוצע התלוי (P):              אוP = הסתברות לערך 1 בתלוי (ממוצע Y, שיעור ה- 1 במדגם)e = הבסיס של הלוגריתם הטבעי (2.718)a = p  כאשר X = 0b = בכמה ישתנו הסבירויות לערך 1 (p) כאשר הבלתי תלוי (X) משתנה ביחידה אחת. (ניתן לקבל ערכים מנורמלים או לא מנורמלים של b כמו ברגרסיה לינארית). מכיוון שהיחסים בין המשתנים ברגרסיה הלוגיסטית אינם לינארים – ל- b אין משמעות ישירה כפי שקיימת לו ברגרסיה הלינארית (אלא הוא מצביע על כיוון בלבד). יש לשים לב כי  

חישוב הסיכוי לערך 1 (הצלחה): 

פונקצית הפסד (loss func.):מודדת התאמה בין המודל המתמטי והמידע בפועל. רגרסיה לינארית – עקרון התאמה: סכום ריבוע הטעויות המינימלירגרסיה לוגיסטית – עקרון ההתאמה: סבירות מירבית (maximum likelihood) ערכי המשוואה (b, a) המחושבים הם בעלי הסבירות הגבוהה ביותר. החישוב מבוצע עפ"י עקרון numerical analysis: הערכה התחלתית שרירותית של הפרמטרים, חישוב סבירות התחלתית לפרמטרים (step 0) שהוערכו, לאחר מכן שיפור הפרמטרים של הניבוי במקצת ולאחר מכן חישוב מחודש של הסבירות. התהליך חוזר על עצמו עד שמפסיקים אותו (לרוב כאשר השינויים קטנים או לאחר מספר מסויים של מחזורים.   הסתברות וסיכוייםההסתברות להיות גבר בגובה מסויים היא 0.9, כלומר הסיכוי להיות גבר הוא 0.9/0.1 = 9 לאחד.ברגרסיה לוגיסטית הקבוע הוא לוגיט >> הלוגריתם הטבעי של הסיכויים (odds), והוא מחושב בנוסחה הבאה:

המרת הסיכויים להסתברות מבוצעת באופן הבא: מדדים

מדד חישוב תפקיד פרשנות
שיעור חיזוי כולל התחלתי(step 0) התפלגות המקרים בין ערכי התלוי>> כלומר ניחוש "עיוור" נקודת מוצא להשוואה במדגם בו 40% גברים 60% נשים סבירות התחלתית להיות גבר (ללא ב"ת) היא 0.6
שיעור חיזוי כולל  למודל (step 1) עד כמה הבלתי תלויים מצליחים לנבא את התפלגות המקרים בתלוי 1.שיעור ניבוי כולל – האם גבוה?2. השוואה האם קיים שיפור משמעותי בין ניבוי התחלתי וסופי  במידה ואין שיפור (או אף נסיגה) – מצביע על יכולת נמוכה של הב"ת לאתר שונות בתלוי>> מודל גרוע. שיפור משמעותי>> מודל טוב

שיעור חיזוי לקטגוריות התלוי

השוואה בין step 0 ל- step 1 כמו בשיעור החיזוי הכולל השוואה בין הקטגוריות – האם הב"ת משפיע על שניהם במידה ויש שיפור בשיעור הניבוי בקטגוריה ראשונה ובשניה לא – הב"ת משפיע רק על הראשונה ונדרשים משתנים נוספים.
-2LL לוגריתם טבעי של ההסתברות *2- מודד התאמה של המודל לנתונים ומובהקות המודל ככל שהוא יותר גדול כך התאמת המודל לנתונים קטנה יותר
יחס סיכויים

Exp (x)

היחס בין סיכוי להצלחה לסיכוי לכשלון (0) מודד עד כמה הסיכוי להצלחה (1) גדול מהסיכוי לכישלון י"ס = 16הסיכוי להצלחה גדול פי 16 מכשלון
מבחן Wald מבחן מובהקות למקדמי הרגרסיה בסיס ל- sig  
R2 שונות מוסברת מקורבת חוזק ההשערה שבבסיס המחקר ככל שיותר גדולה – המודל יותר טוב

יחס סיכויים – דוגמא:מחקר הבודק את השפעת המגדר על בחירת מועמד לנשיאות.תלוי: שני מעומדים 1 ו- 2 ב"ת: גבר = 1, אישה = 0, כאשר הלוגי'ט לנשים עבור מועמד 1 = 0.5 >>> יחס הסיכויים exp(0.5) = 1.649 >>> ניתן לומר שהסיכוי שאישה תבחר במעומד 1 ביחס למועמד 2 גדול פי 1.649 מהסיכוי שגבר יבחר בו. אזהרה: לא ניתן לתרגם קביעה זו ישירות למונחים של שכיחויות.  מושגיםשיעור החיזוי הכולל  – להשוות בין זה שבהשערת האפס (קרי בלי הבלתי תלויים) לבין זה שסטפ 1 – במידה ואין שיפור משמעותי קשה לאתר שונות בתמיכה באי-לגליזם על בסיס מידת הקיצוניות.שיעור "פגיעות" – מספר הניבויים הנכונים\גודל המדגםרגישות – שיעור הניבויים הנכונים בקטגוריית ההתייחסות של התלויספציפיות – שיעור הניבויים הנכנונים בקטגוריה מסוימת של התלוישיעור שגוי חיובי – שיעור טעויות כאשר התלוי צריך להיות 1 אבל הוא 0 בפועל מתוך כלל המקרים בהם התוצאה היא 0. שיעור שגוי שלילי – שיעור טעויות כאשר התלוי צריך להיות 0 אבל הוא 1 בפועל מתוך כלל המקרים בהם התוצאה היא 0. הסטוגרמת ההסתברויות החזויות – "classplot באמצעותה ניתן להעריך ניבויים נכונים ומוטעים. 1) U-shaped distribution מעידה על כך שניתן להבחין בין הניבויים >> המודל מתאים לנתונים, התפלגות נורמלית – רוב הניבויים קרובים לנקודת החיתוך >> התאמה לא טובה. 2)מיעוט טעויות – מודל טוב.  

מובהקות

מובהקות – הסבירות שהתוצאות שיתקבלו יהיו מקריות (לא מייצגות את האוכלוסיה). Sig = 0.05 >> הסיכוי שהתוצאות יהיו מקריות הוא 5% >> המובהקות היא 95%רמה של 95% סיכוי שהתוצאה תהיה נכונה לאוכלוסיה היא שרירותית ונקבעה לצורך פרסומים מדעיים. לצורך מטרות אחרות (כמו למשל – קביעת אסטרטגיה עסקית) ניתן להסתפק ברמת מובהקות נמוכה יותר בהתאם למטרה. בעיות:

  • תוצאות שקריות – ברמת מובהקות 95% על כל 100 מבחנים 5 יהיו שגויים – ככל שנערוך יותר מבחנים יהיו יותר תוצאות שגויות.
  • רוב מבחני המובהקות מניחים כי הדגימה אקראית לחלוטין.

ניתוח נתיבים

ניתוח נתיבים מהווה הרחבה של מודל הרגרסיה ומשמש לבחון את התאמת טבלת הקורלציות עם 2 או יותר מודלים אחרים. הרגרסיה מבוצעת לכל משתנה בנפקד במודל כתלוי באחרים שהמודל מאתר כסיבות. משקלי הרגרסיה מושווים עם טבלת הקורלציות למשתנה ומדדי התאמת המודל (קרי שונות מוסברת ומובהקות). המודל הטוב ביותר נבחר לקידום התיאוריה.

מודל נתיבים (Path model.) – דיאגרמה המציגה משתנים בלתי תלויים, מתווכים ותלויים. חיצים בודדים מסמנים קשרים סיבתיים בין משתנים חיצוניים או  מתווכים. לעיתים עובי החץ מעיד על עוצמת המקדמים של הנתיב

נתיבים סיבתיים למשתנה מסויים – הללו כוללים: 1. נתיב ישיר ע"י חיצים המובלים אל המשתנה 2. נתיבים תואמים ממשתנים חיצוניים, בעלי קורלציה עם משתנים אחרים, שיש להם חיצים המובלים למשתנה  מסויים. לדוגמה הציור הבא:



למודל ישנם שלושה משתנים חיצוניים הקשורים בינהם A,B,C , ומשתנים פנימיים D,E. נתיבים רלבנטיים: הנתיבים הסיבתיים הרלבנטיים ל- D הם הנתיבים A>>D B>>D והנתיבים המבטאים קשר מקדים סיבתי הדדי: מ- B>>A>>D, C>>A>>D ו – C>>B>>D נתיבים לא רלבנטיים: נתיבים בעלי שתי קורלציות C>>B>>A>>D אינם רלבנטיים          נתיבים בכיוון ההפוך (E>>B>>D, E>>B>>A>>D) אינם רלבנטיים

 משתנים חיצוניים (. Exogenous): משתנים ללא סיבתיות גלויה המסבירה אותם במודל (אין חיצים המגיעים עליהם). קורלציה בין משתנים חיצוניים תסומן באמצעות חצים דו ראשיים.

משתנים פנימיים (. Endogenous): אלו הם משתנים להם יש חיצים הבאים עליהם – כלומר מושפעים ממשתנים אחרים. המשתנים הפנימיים כוללים משתנים מתווכים (intervening) ותלויים. למתווכים יש חיצי כניסה ויציאה לתלויים רק חיצי כניסה.

מקדמי נתיב\משקלי נתיב – אלו הם מקדמי רגרסיה מנורמלים (beta) המראים השפעה ישירה של הבלתי תלוי על התלוי בנתיב.>>> מצביע על היקף ההשפעה של משתנה אחד על השני כאשר שולטים במשתנים אחרים. ניתן להעזר במקדמים מנורמלים או בטבלת קורלציות לקבוע אותו. (עבור רגרסיה לניארית דו משתנית המקדם הוא למעשה r – מקדם הקורלציה השווה לבטא).  

דוגמה, המודל הבא:  

מודל זה מאופיין בשלושת המשוואות הבאות:

משוואה 1: b11(age) + b12(autonomy) + b13( income) + e1 = סיפוק

משוואה 2: = b21(age) + b22(autonomy) + e2 הכנסה

משוואה 3:  = b31(age) + e3עצמאות

ה- b הם המקדמי הרגרסיה המתוקננים (beta). המספרים מציינים את מספר המשוואה והמשתנה (b21 = משוואה 2, משתנה 1). מוכנסים רק המקדמים הישירים של המשתנים הפנימיים (תלויים). במקרה של חיצוניים בעלי תלות הדדית משתמשים במתאמים משותפים.

בדוגמה שלנו מקדמי הבטא הם:

מרכיב השגיאה (הפרעה) – שונות בלתי מוסברת(1 – R2),

כלל ההכפלה – הערך המצרפי של כל נתיב הוא תוצר של הכפלת המקדמים שלו.למשל: לכל שנת השכלה ההכנסה השנתית עולה ב- 1000$מקדם השמרנות הוא על כל דולק הכנסה השמרנות עולה ב- 0.0002 (בסולם 5 דרגות)אזי משקל ההכנסה בנתיב הוא: 1000*.0002 = .2אותו דבר לגבי בטאות אבל אז זה במונחים סטנדרטיים.  

אפקט הפירוק:למציאת ההשפעה הבלתי ישירה של משתנה חיצוני על התלוי שנבחר אנו נכפיל את המקדמים שלו בנתיבים השונים. למשל כאשר התלוי הוא סיפוק:

age -> income -> satisfaction is .57*.47 = .26

age -> autonomy -> satisfaction is .28*.58 = .16
age -> autonomy -> income -> satisfaction is .28*.22 x .47 = .03
total indirect effect = .45

הסיכום של כל ההשפעות הלא ישירות מבטא את ההשפעה הבלתי ישירה הכוללת של גיל על סיפוק. ניתן להשוות זאת להשוואה הישירה של המשתנה החיצוני (באם קיים לה נתיב). בדוגמה שלפננו השפעה לא ישירה מצרפית היא 0.45 וההשפעה הישירה היא 0.8- בלבד.עבור רגרסיה דו משתנית ניתן לחלק את ההשפעה להשפעה מלאכותית והשפעה סיבתית. חישוב סוגי ההשפעות מבוצע ביחס למודל קודם בעל נתונים גולמיים (ראה אנגלית בסוף).משתנים חיצוניים בעלי מתאם הדדי – משתנים אלו נכנסים לחישוב נתיבים עקיפים עם זאת אסור שייווצר המצב הבא: נתיב ישיר המורכב מנתיבים של שני משתנים חיצוניים בעלי תלות\מתאם הדדים (חייב שיהיה בינהם משתנה מתווך).

מובהקות ומידת התאמת המודל של ניתוח הנתיבים:

  • בחינת הנתיב האינדיבידואלי מבוצעת ע"י מבחן F מפלט הרגרסיה.

  • בחינת התאמת המודל – מדדים מתוכנת SEM (structural equation modeling) כמו AMOS או LISREL. ניתן להשוות בעזרתם להשוות את הקורלציה החזויה לנתיב מול הקורלציה המתקבלת (כנראה בדומה ללוגיסטית).

הנחות המודל (התנאים בהם ניתוח הנתיבים חייב לעמוד):

  • לינאריות

  • תוספתיות – אין השפעות הדדיות בנתיב (למעט במשתנים חיצוניים התלויים אחד בשני).

  • משתנים אינטוואלים – או סולמות אורדינלים מייצגים אינטרבליות בקירוב. משתני דמי יסומנו כבלוק, כלומר חץ המסומן אל ערך דמי אחד חייב להיות מכוון גם לכל ערכי הדמי האחרים בסט)

  • אין תלות בין הטעויות.

  • שעורי ההפרעה אינם בעלי התאמה הדדית – אסור ששיעור הפרעה מסויים יהיה תלוי בכל משתנה פנימי הקיים במודל. הנחה זו היא חיונית והפרתה עשויה להגרם מטעויות מדידה במדידת המשתנה הפנימי, כאשר קיימת אנדוגניות (כלומר משתנה פנימי מסביר למעשה את החיצוני – בניגוד לכיווני החיצים במודל), או כאשר משתנה מחוץ למודל מהווה הסבר למשתנה פנימי במודל, ובמודל קיים משתנה אחר המיועד להסבירו.

  • מולטיקולינריות נמוכה – אינדיקציה למו"ק גבוהה הם טעויות מנורמלות גבוהות של ה- b בניתוח רגרסיה.

  • ללא זיהוי חסר או הגדרת חסר (No underidentification or underdetermination). במודל ישנן פחות מידי משוואות מבניות לפתרון הבלתי ידוע.

  • רקורסיביות – כל החיצים מופיעים בכיוון אחד ללא מעגליות של היזון חוזר.

  • ספסיפיקציה – כל המשתנים הנדרשים נכללים במודל. טעות בספסיפיקציה – כאשר משתנה מובהק סיבתי נמצא מחוץ למודל. כמו כן הקשר בין המשתנים אכן מתאים למודל – אם ישנו קשר הפוך (אנדוגניות) – קיימת בעיה קשה.

  • שימוש בקורלציות מתאימות – כאשר משתמשים בטבלת מתאמים ראוי להשתמש במתאמי פרסון לשני משתנים אינטרוואלים, מתאמים פוליכורים למשתנים אורדינלים, ומתאמים טטרכים למשתנים דיכוטומיים, פולסיירלים לאינטרוולי ואורדינלי וביסיריילי לאינטרוולי ודיכוטומי.

  • גודל מדגם מתאים – המלצה (Kline, 1998) – על כל פרמטר לפחות 10 מקרים (עדיף 20). 5 מקרים לפרמטר או פחות אינה כמות מספקת לבדיקת מובהקות המודל.

  • שימוש באותו מדגם לכל הרגרסיות

שאלות :

האם ניתוח נתיבים מאשש סיבתיות במודל?

לא- יכולים להיות מודלים תיאורטים רבים התואמים לסט הנתונים. הוא משמש להאיר מתוך 2 או יותר מודלים תיאורטים הכי תואם לסט הנתונים.

 האם ניתוח נתונים יכול לשמש למטרה מגששת (מסבירה) חוץ מאישוש מודל תיאורטי?

רצוי לצור היפותזה תאורטית קודם לשימוש בניתוח נתיבים. כמינימום נדרש ציון הכיוונים קודם להרצת המודל.

 כיצד אפשר לדעת עם המודל הוא בעל הגדרת חוסר?

בעזרת תוכנות SEM כמו AMOS

כיצד משווים מובהקות של מקדם הנתיב עם המובהקות של מקדם הרגרסיה?

הם אותו דבר! המובהקות של הבטא היא מובהקות מקדם הנתיב

כיצד מעריכים מובהקות של כל השפעת המשתנים החיצוניים על הפנימיים?

הרצת רגרסיה עם Y (פנימי) כתלוי וכל שאר הבלתי תלויים ללא משתנים מתווכים. מובהקות הבטא של ה- X היא המובהקות הכוללת (לצרף לסולם את הב"ת)

מה הקשר בין טבלת קורלציות לבין מקדמי הנתיב באשר לבדיקת המודל? חישוב הקורצליות החזויות במודל יבוצע באמצעות תוכנה ייעודית ושימוש בהשוואת מדדי התאמת המודל  goodness-of-fit למקדמים החזויים (הקורלציות הנראות).

איך מחשבים מקדמי נתיב ב- SPSS?

בהנחה ש – A>>B, A>>C, B>>Cיש לערוך סדרת רגרסיות לכל משתנה שאינו חיצוני כך שהוא יחשב כתלוי. כאשר מדובר בקשר בין שני משתנים: רגרסיה דו משתנית. כאשר מדובר על קשר בין שלושה (A>>B>>C) תורץ רגרסיה עם שני ב"ת.

חישוב מקדם הרגרסיה משיעור הטעות?1 – r2

 . לא להשתמש ב r2 מותאם.

איך לבצע השוואה בין קבוצות?

הרצת ניתוח נתיבים נפרד לכל קבוצה והשוואה בין המודלים

האם ניתן להשתמש ברגרסיה לוגיסטית לפירוק?

לא!