ארכיון הקטגוריה: סטטיסטיקה על העולם

ענת קם – הקשר בין עמדות פוליטיות לדעות על הפרשה

(אם הגעתם בשביל התוצאות, הם מופיעות בסוף הפוסט). כנסו לכאן אם ברצונכם למלא את השאלון ולהופיע שוב בניתוח המעודכן

רקע – ענת קם

חברי המלומד (והמתפלסף) טל ירון לקח על עצמו באחרונה לכתוב באריכות על ענת קם.
למי שלא הספיק להתעדכן, זה בסדר – אתם לא אמורים לדעת על זה.
ממה שהתפרסם בעיתונות ה"זרה", בארץ,  בטוויטר, בויקיפדיה (כלומר, הערך על ענת קם נמחק, אבל הדיון על המחיקה נשאר) ובבלוגוספירה בכלל (לדוגמא: פה, כאן, שם, וגם ב |||||, וגם זה וכמובן הוא וגם זה, ובטח שכחתי כמה…), נראה שהסיפור הוא ש (ואני מצוטט את טל ירון):
בהמלצת חברים – הסרתי את הטקסט עד להסרת צו איסור הפירסום

ענת קם, שהיתה חיילת בפיקוד מרכז, העבירה לאורי בלאו, כתב הארץ כאלף מכתבים, המסווגים סודי-ביותר. מתוך אלף המכתבים, הצליח הכתב אורי בלאו להשיג אישור מהצנזור לפרסם שני מכתבים. המכתבים מכילים פקודות שנתן יאיר נווה, אלוף פיקוד מרכז, לחיסול ממוקד של מבוקשים שלא לצורך, בניגוד להוראות בג"צ בעניין. ככל הנראה, מערכת הבטחון פעלה כדי לאתר את מקור המידע של בלאו. בדצמבר 2009, ענת קם, שהייתה כבר עיתונאית בוואלה, נתפסה. אורי בלאו, הכתב, ברח לבריטניה, כדי לחמוק מעדות במשפטה של קם. […]
החל מאוקטובר הוציאה מדינת ישראל (כנראה לבקשת השב"כ) בבית משפט השלום צו איסור פרסום על הפרשה.[…] אף עיתונאי לא הסכים לפרוץ את מעגל השתיקה […]. אבל הסוד לא נשמר זמן רב, מרגע שמספר בלוגרים לקחו על עצמם את היוזמה לפרסם את המידע. מרגע שזה קרה, הרשתות החברתיות התעוררו והתפוצצו במידע על הסיפור. והוא זכה לתפוצה רחבה מאד באינטרנט (חפשו בגוגל "ענת קם" ותראו כמה תוצאות תקבלו על הנושא).

(עידכון 8.4.2010: לינק למאמר בווינט בנושא)

רקע – סקר הדעות של הקוראים לגבי ענת קם

ומה בין זה לסטטיסטיקה?
ובכן, עושה רושם שהדעות בציבור לגבי הפרשה (שכמובן אף אחד לא שמע עליה), הן חלוקות. יש אנשים שהם בעד ענת קם ויש אלו שנגד, בעד אורי בלאו, ויש נגד, בעד יאיר נווה, ויש נגד.
ההגיון דורש שיהיה קשר בין העמדות הפוליטיות העקרוניות של האנשים לבין התפיסה שלהם את הפרשה המסויימת הזו. את הקשר הזה ביקש טל ירון לגלות באמצעות עריכת "סקר משפט ציבורי" בנושא של ענת קם וסביבותיה. נכון לרגע זה כ- 78 איש ענו על הסקר (אני, אגב, לא עניתי). ואת הניתוח הסטטיסטי של הסקר נתבקשתי לבצע – ואבצעו כאן כעת.

ניתוח סטטיסטי של הסקר

אז לפני שנפנה להציע ניתוח של הסקר, נאמר מילה על מה אפשר לקבל ממנו: הסקר לא מייצג נאמנה אף "קהל" מלבד קהל הקוראים של הבלוג של טל ירון. להניח שהקהל הזה איכשהו מייצג את האוכלוסיה הרחבה זה יהיה גוזמה לא ריאלית. גם הקשרים הסטטיסטיים שיתקבלו בין המשתנים עשויים להיראות אחרת אילו הסקר היה מוצג לאוכלוסיה הרחבה (ואני לא אכנס היום להסבר מדוע), מה שאומר שהסקר הזה הוא בעיקר לשם השעשוע, וקבלת התחושה הבסיסית של איך הקשרים בין המשתנים עשויים להיראות.

הסקר מורכב מארבע שאלות העוסקות בעמדות הפוליטיות של אנשים וב-5 שאלות העוסקות בדעות של האנשים על הפרשה של ענת קם.
טל ירון ביקש שהניתוח שלי יענה על שתי שאלות:
1) האם יש קשר בין השקפת העולם למצב גיבורי הסיפור
2) האם יש קשר למפלגה ולהשקפת העולם

כדי לענות על השאלות הללו, הרי שלא יעזור לנו הסתכלות חד ממדית על כל אחד מתשעת המשתנים שלנו (זה מה שגוגל מציע, וזה לא עוזר במיוחד לענות על השאלות).
אף על פי כן, הנה תוצאות הניתוח על פי גוגל (לחצו על התמונה לגירסה מוגדלת)

anat kam - google spraedsheet analysis - 1

אני לא התייחס בהרחבה לתוצאות הללו, אתם מוזמנים לעבור על התמונה ולהתרשם בעצמכם.

ניתוח סטטיסטי של הסקר – ניתוח דו-ממדי – שיקולים סטטיסטיים

כדי לענות על השאלה שטל ירון שאל, עלינו להשוות בין התוצאות במשתנה אחד לתוצאות באחר. אני אתחיל מלתאר כמה מהשיקולים בכלים הסטטיסטיים בהם השתמשתי ואז אציג את התוצאות.
הכלים בהם נשתמש כאן הם:
0) גוגל דוק – היכולת שלי לבצע את הניתוח הסטטיסטי הזה בזריזות ובקלות, מסתמך על זה שהנתונים נאספו (על ידי גוגל-טפסים) הישר לתוך גליון שאותו יכולתי לשאוב לתוך R (התוכנה הסטטיסטית האהובה עלי). כתבתי עוד על החיבור בין השניים בפוסט: Google spreadsheets + google forms + R = Easily collecting and importing data for analysis
1) קורלציות – אנחנו רוצים לראות מהי הקורלציה בין כל צמד משתנים. נשים לב שהיות והמשתנים שלנו הם קטגוריאליים סדורים, הרי שהקורלציה היותר מתאימה כאן היא זו של ספירמן (הא-פרמטרית) ולא זו של פירסון (שמתאימה לנתונים רציפים).
2) תרשימי פיזור – נשים לב שבמקרה שלנו תרשימי פיזור הם אתגר. מדוע? כיוון שכאשר מציגים תרשים פיזור עבור זוג משתנים עם 5 רמות בלבד, צפוי שנקבל הרבה נקודות שיעלו אחת על גבי השניה. ואז השאלה היא כיצד להציג מצב כזה. אני בחרתי לפתור זאת באמצעות שינוי גודל הנקודות (ככל שיש יותר נקודות במקום מסויים, כך גודל הנקודה המייצגת תהיה גדולה יותר). וגם, על ידי הוספה של קו מגמה מוחלק (LOWESS, למי שהיה סקרן לדעת).
3) השילוב הרב ממדי – השילוב של הצגת הרבה זוגות של השוואות (בהקשרנו) מתבצע על ידי גרף שנקרא "תרשים מטריצת-פיזור של קורלציות". הסברתי עוד כיצד אני מייצר את התרשים הזה ב- R בפוסט Correlation scatter-plot matrix for ordered-categorical data . אגב, נשים לב שבמקרה שמישהו לא ענה על אחת השאלות, החלטתי להסיר את התשובה שלו מהתרשים (המדקדקים היו ממלאים את הנתון שלו בנתון זמני, אבל החלטתי לוותר על זה ולהציג רק אנשים שהשיבו על כל השאלות. כמו כן, התעלמתי מסוגיית ההשוואות המרובות – עמכם הסליחה)
(הערה אחרונה – שימו לב שהניתוח שלי הצליח לשאוב את העברית של גוגל-מסמכים לתוך התוכנה R, ולהציג אותה בפלט. בהזדמנות קרובה אני אכתוב פוסט שבו הסברתי איך עושים זאת. אך לבינתיים תדעו שזה אפשרי וגם שזה לא טריוויאלי לעשות…)

ועכשיו, לתוצאות –
להמשיך לקרוא

האם (בארה"ב) למפגינים כנגד רפורמת הבריאות יש תפיסה מוטה של מיסוי במדינתם?

רקע (מקור: ויקיפדיה)

בארה"ב, החוק להגנת החולה וטיפול בר השגה (אנגלית: Patient Protection and Affordable Care Act) הוא חוק (חלק מרפורמת הבריאות) שנועד להסדיר מתן שירותי בריאות לתושבי ארצות הברית. החוק נועד למנוע את המצב בו עשרות מיליוני אמריקנים אינם מבוטחים, למנוע מאמריקנים שמבוטחים לאבד את ביטוח הבריאות שלהם עקב החלפת מקום העבודה דרכו הם מבוטחים, או עקב טענות חברות הביטוח שהטיפולים נובעים ממצב בריאותי שקדם לתחילת הביטוח, ונועד למתן את הגידול בהוצאות על בריאות. החוק אושר בבית הנבחרים ב-21 במרץ 2010. נשיא ארצות הברית, ברק אובמה, אישר את החוק למחרת. אובמה הצהיר כי הוא מחשיב את החוק בתור ההישג הפוליטי הגדול ביותר שלו.
הרפורמה במערכת הבריאות תבטיח לראשונה ביטוח בריאות ליותר ל-30 מיליון אמריקאים שעד לאישורו לא היו מבוטחים כלל.

בשבלינו אזרחי מדינת ישראל, אשר כולנו מקבלים ביטוח בריאות כחלק מהותי משירותי המדינה אלינו, המצב של אזרחים בארה"ב (ומה שהרפורמה הזו מנסה לפתור) יכול להיות בלתי נתפס.

המחלוקת – "מפגיני מסיבת התה"

על פניו, נישמע שכולם צריכים לתמוך בזה (וברפורמת הבריאות באופן כללי), אך זה איננו המצב. קבוצה של (לרוב, רפובליקנים) החלו תנועה של הפגנות המכונות "הפגנות מסיבת התה" (עוד על כך כאן), אשר מפגינים בכלל על כל צורה של העלאת מס, ובפרט העלאת המס שתידרש (שאני לא בטוח עד כמה היא בכלל תהיה) בעקבות העברת רפורמת הבריאות שאובאמה קידם.

כדי להמחיש את הדרמטיות של התנגדות המפגינים, הנה סרטון (של פחות מדקה) המראה כיצד מפגינים צועקים על חולה פרקינסון שהתיישב והפגין (בעד רפורמת הבריאות) כנגד המפגינים (כנגד רפורמת הבריאות)

אגב, חולה הפרקינסון הזה הוא בן 60, אובחן בפרקינסון לפני 15 שנה, ולפני כן הוא עבד כמהנדס גרעיני. הוא מחזיק שני תארים שניים ודוקטורט מאוניברסיטת קורנל. הסיבה שהוא עוד לא מת היא כי הוא שילם (בעזרת ביטוח בריאות חלקי) 150,000$ עבור ניתוח שנועד להעריך את איכות חייו. ניתוח שבארץ, כנראה, שהוא היה מקבל גישה אליו בהשתתפות סימלית בהרבה. זה למה הוא מפגין בעד רפורמת הבריאות שאובאמה והדמוקרטים מקדמים. (הנה סרטון שבו בוב, חולה הפרקינסון, מדבר)

אז למה הם מתנגדים?

אחת השאלות שדמוקרטים (כמו, לדוגמא, אישתי הנהדרת) שואלים היא מדוע בכלל האנשים הללו מתנגדים לרפורמת הבריאות. הרי המצב כיום בארה"ב הוא מפלצתי, לפיו המערכת איננה מסוגלת לחשוב באופן של רפואה מונעת, וכל ניסיון להיעזר בשירותי הבריאות מסתכם במאבק (של אנשים חולים) למול חברות הביטוח, אשר יכול בפעמים רבות להוביל לפשיטת רגל של החולה (זו, מסתבר, אחת הסיבות השכיחות ביותר לפשיטות רגל בארה"ב – טיפול רפואי לאנשים ללא ביטוח בריאות "טוב").

וזה מוביל אותנו לסטטיסטיקה.

תפיסת המיסוי של ארה"ב אצל "מפגיני מסיבות התה"

דוד פרום (מישהו), הגיע לאחת מההפגנות של מסיבות התה, ופנה אל המפגיני בשאלה פשוטה "(לדעתכם) כמה מיסים גובה ממשלת הממשלה הפדרלית בארה"ב מהמשק?". על השאלה השיבו 60 מתוך כמה מאות המפגינים שנכחו במקום. הסטטיסטיקות שקיבלנו מתשובות הנבדקים היו (מקור):

תשובה ממוצעת: 42.06% (זוהי התשובה הממוצעת של אחוז המיסוי שאנשים אלו מאמינים שארה"ב גובה מהמשק)
סטיית תקן: 19.06%
מספר מפגינים שנשאלו: 60

התשובה הנכונה היא (על סמך המקור) 31.5%, שזה פחות ממה שהמפגינים ענו בממוצע. השאלה (הסטטיסטית) היא האם אמונת המפגינים לגבי שיעור המס היא מוטה כלפי מעלה באופן מובהק.

ננסח את השאלה באופן יותר מדויק: בהנחה שהמדגם של 60 איש שנשאלו הוא מדגם מייצג לדעות של אנשים מהסוג שמשתתפים בהפגנות מסוג זה (כלומר שהסוקרים לא פנו לשאול, לדוגמא, רק את האנשים שנראו הכי קיצוניים בהפגנה), האם יש לנו מספיק נתונים כדי לדעת האם הדעות של הפגינים מוטות (באופן מובהק סטטיסטית) להיות מעל למציאות? התשובה לדעתי היא כן.

ננסח את השאלה שוב (הפעם, יותר "סטטיסטית"): האם יש לנו עדות מספקת להניח שהתוחלת של התפלגות התשובות של המפגינים, היא שונה (באופן מובהק סטטיסטית) מהערך האמיתי? (זוהי השערת ה-0. ההשערה הנגדית אומרת, שייתכן והמפגינים כן ענו, בממוצע, את הערך הנכון)

באמצעות משפט הגבול המרכזי (לינק למאמרון ויקיפדיה בנושא) נענה על השאלה. לפיו אנו יודעים שהתוחלת של תשובות המפגינים שואפת להתפלגות הנורמאלית. לפי זה נוכל לחשב מהו הרווח בר-סמך התחתון של תוחלת תשובת המפגינים (או בתרגום: מהו הערך הנמוך ביותר שהיינו יכולים לחשוד שהוא הממוצע/התוחלת האמיתית של תשובות המפגינים). המספר יהיה:

42.06 – 1.96 * 19.06/sqrt(60) = 37.24

כלומר, המספר הכי נמוך (כאשר מדברים על רווח בר סמך דו-צדדי) של 95%) שאפשר לצפות שהוא התוחלת האמיתית של תשובות המפגינים, הוא 37.24%. שזה יותר גבוה מ – 31.5% מס (שהוא הערך האמיתי).

למעשה, ההסתברות שנקבל את התוצאות שקיבלנו מהשאלון, בהינתן שהערך האמיתי של תוחלת תשובות המפגינים היא 31.5% היא ערך P (P value) – של  1.623788e-05

(הפקודה ב- R לחישוב היא:

dnorm(42.06,31.5, 19.06/sqrt(60))

)

שאלה שניה שנשאלה הייתה "כמה מס הכנסה פדרלי אתם מאמינים שמשלמת משפחה ממוצעת (עם הכנסות של 50000$ לשנה) ?"
ביחידות של 1,000 דולר, התשובות היו:
תשובה ממוצעת: 12.71
סטיית תקן: 12.06
מספר מפגינים שנשאלו: 60
התשובה הנכונה היא (על סמך המקור) 7.5, שזה פחות ממה שהמפגינים ענו בממוצע. השאלה (הסטטיסטית) היא האם אמונת המפגינים לגבי שיעור המס (המוטל על משפחה ממוצעת) היא מוטה כלפי מעלה באופן מובהק.

כמו קודם, החישוב מראה שכן. עם ערך P של: 0.00094
קוד ה- R לחישוב היה:
dnorm(7.5,12.71, 12.06/sqrt(60))

(קישורון לכיף – הנה דוגמא לפוסט שיוסי לוי כתב בזמנו, בו הוא גם השתמש במשפט הגבול המרכזי: "סקר לדוגמא")

אז מה המסקנה?

המסקנה שלי מהסקר היא שאנשים שלא רוצים שיעלו את המיסים בארה"ב, יש תפיסה פסימיסטית לגבי מצב המיסוי הנוכחי בארה"ב.

שאלת המליון היא מהי כיוון הסיבתיות במקרה שלנו. האם התפיסה הפסימיסטית הזו היא זו שמובילה את האנשים להפגין (ולתת כזה יחס עויין לנושא), או שבגלל שלאנשים אלו יש סיבות אידיאולוגיות לוחמניות כנגד מיסוי (לא משנה איזה מיסוי), הם נוטים להגזים במה שהם חושבים שהוא מצב המיסוי הקיים בארה"ב.

אילו האפשרות הראשונה הייתה נכונה – אז ייתכן שמתן המידע המעודכן לגבי המצב המדוייק, הייתה עוזרת. אילו האפשרות השניה היא הנכונה (מה שהוא הניחוש שלי), אז הסיפור הוא אידיאולוגי/מוסרי – והדיון בו ראוי להתקיים במישור הזה.

אגב, כששאלתי את אישתי מה היא מנחשת שהוא אחוז המיסוי בארה"ב, היא ניחשה 25%. (לא רלוונטי, כיוון שאינני בטוח שאפשר להשוות את המדינה ממנה אישתי מגיעה למדינה שממנה הגיעו הנסקרים)
זה היה יכול להיות מעניין לחזור על סקר דומה באוכלוסיה רחבה יותר, ולראות כיצד התפיסה משתנה לפי עמדות פוליטיות.

* * * *
עידכונים בפוסט:
1) אנשים בתגובות תיקנו אותי שהשאלה נשאלה על מס פדרלי שנגבה, ולא "מס" באופן כללי.
2) אנשים שאלו כיצד המספר היחיד ה"נכון" של המס חושב, בהינתן זה שזהו מס שמשתנה בין מדינות. התשובה היא שאינני יודע. אני משער שמדובר במס הרלוונטי במדינה שבה נערך הסקר. הקורא החרוץ מוזמן לעקוב אחר הקישורים שסיפקתי כדי למצוא את הידיעה המקורית ולראות אם הכותב מספק תשובה. בפוסט זה הנחתי שהוא יודע על מה הוא מדבר (ייתכן וטעיתי, אבל לכרגע אני מרשה לעצמי אופטימיות)

* * * *

תגובותיכם יתקבלו בברכה 🙂

מאגר נתונים כולל על האינטרנט בישראל – יוזמה חדשה ומרגשת

איגוד האינטרנט הישראלי רוצה להקים ולנהל מאגר נתונים על האינטרנט בישראל. אלו הם חדשות מרגשות, לא רק עבור סטטיסטיקאים אלא לכל מי שהוא "אוהב אינטרנט".

מאגר מידע על "האינטרנט בישראל" (שמיד נפרוט מה דבר כזה יכול להכיל), הוא מה שדרוש לנו כדי לדעת מה מצבנו וכדי לקבל פעולות לאן להמשיך הלאה.

כשמאגר כזה יוקם – יהיה מעניין מאד לדעת כמה אנשים משתמשים באינטרנט, מהי רמת הידע שלהם, מהם קצבי התעבורה, מהם הרגלי הצריכה של אנשים באינטרנט, באיזה מגמות ניתן להבחין ועוד ועוד. מידע כזה יאפשר לממשלה, לגופים עיסקיים ולאנשים בעלי יוזמות למען הקהילה – לדעת טוב יותר איפה להשקיע משאבים וכיצד להתקדם למקום טוב יותר.

כבר קיום הרבה גופים אוספים מידע מסוג זה, אך המידע לא מאורגן במקום מאוחד שיאפשר לנו להגיע אליו ולחקור אותו כדי לגלות תובנות.

לפרטים נוספים, אני מעתיק בזאת את הטקסט שהופץ על ידי איגוד האינטרנט הישראלי:

* * * * * *

איגוד האינטרנט הישראלי: בקרוב – מאגר נתונים כולל על האינטרנט בישראל

איגוד האינטרנט הישראלי מתחיל בתהליך הקמת מאגר נתונים על האינטרנט בישראל. המאגר יכיל נתונים גולמיים שיתעדכנו אחת לתקופה, אודות מגוון מימדים הקשורים לאינטרנט. בין הנתונים הצפויים להופיע במאגר: נושאים טכניים, דוגמת תשתיות פיזיות ותקשורת – רוחבי פס, נפחי תעבורה, שיטות חיבור בבתי אב, עסקים, סקטורים שונים, נתונים הכרוכים בממשל מקוון – שימוש באינטרנט לצורך מתן שירות לאזרח, מעורבות בתהליך קבלת החלטות (Netizenship) והחברה האזרחית – השימוש באינטרנט בחברה האזרחית, התנדבות ברשת, תוכן קהילתי והשימוש באינטרנט בקהילות וירטואליות.

המאגר יכלול גם נתונים בעלי גוון חברתי ועסקי, דוגמת נתוני הפער הדיגיטאלי ואף שימוש באינטרנט בעסקים – היקפי מסחר אלקטרוני ושיווק ופרסום באמצעות האינטרנט. נתונים נוספים שיכיל המאגר הנם כאלו שיתקבלו ממדידות ישירות שמבצע האיגוד, כגון מידע ציבורי על תעבורת ה-IIX, מספרי שמות מתחם תחת ה ccTLD .il , וסקרים אחרים שהאיגוד יבצע במישרין או באמצעות קבלני משנה.

עם השלמתו של המהלך יעמיד האיגוד את המאגר לרשות חוקרי אקדמיה, אנשי עסקים, מקבלי החלטות וכלל הציבור.

כצעד ראשון להקמת המאגר, יצא האיגוד בבקשה לקבלת מידע בנושא, מתוך מטרה לקרוא לבעלי עניין, המחזיקים בנתונים בנושא, מובילי דעת פוטנציאלים בתחום הערכת ומדידת האינטרנט ושותפים נוספים לקחת חלק בפרויקט.

לדברי רימון לוי, נשיא האיגוד, "השימוש הנרחב באינטרנט החל בשני העשורים האחרונים בלבד, ולכן תחום מדידת השימוש באינטרנט עוד בחיתוליו. המאגר יכלול נתונים מסקרים בינלאומיים בהם נכללה גם ישראל וכן סקרים שיבצע האיגוד או השותפים; אנו צופים כי הנתונים האיכותיים ביותר יגיעו מגופים בארץ אשר אוספים אותם כחלק מפעילותם השוטפת".

"השלב הקריטי בהקמת מאגר הנתונים הוא יצירת שותפות בין גופים בעלי נתונים ויכולת מדידה, אומר ד"ר ישע סיון, חבר הנהלת האיגוד ויו"ר הוועדה הטכנולוגית האחראית על קידום הפרויקט. "כגוף ניטראלי, יש ביכולתו של האיגוד להוביל את הקמת מאגר הנתונים תוך יצירת שיתוף פעולה בין השחקנים בתחום באופן שיתרום להם ולציבור הרחב. המאגר יאפשר לקבל החלטות על בסיס מידע מהימן ".

למידע נוסף ולהרחבה:
www.isoc.org.il/sts

איגוד האינטרנט הישראלי
השלוחה הישראלית של איגוד האינטרנט הבינלאומי. האיגוד הינו גוף בלתי תלוי הפועל ללא מטרת רווח למען התפתחות והטמעת את פני האינטרנט בארץ ומייצג את ישראל במסגרות בינלאומיות בעלות חשיבות רבה לקביעת עתיד האינטרנט. האיגוד מעורב בנושאים רבים הקשורים לאינטרנט, דוגמת רישום שמות מתחם בסיומת ישראלית, קידום מערכות פתוחות ופרויקטי קוד פתוח, עידוד ותמיכה בקבוצות משימה בנושאי נגישות לבעלי מוגבלויות, הגנה על ילדים מתכנים פוגעניים ברשת, ואינטרנט לגיל השלישי. כמו כן מפעיל האיגוד את משרד ה-W3C הישראלי. נשיא האיגוד: רימון לוי. אתר אינטרנט: http://www.isoc.org.il

עידכון: בינתיים האתר עלה לאוויר כאן.

יום ממוצע בחייו של אמריקאי ב- 2008 (ויזואליזציה מהממת)

"סקר העברת הזמן של האמריקאים" ביקש מ-1000 אמריקאים (מעל גיל 15) לשחזר כל דקה מיום בחייהם, במהלך 2008. אם זה יפה בעינכם, רוצו לאתר של הניו-יורק טיימז לגירסה האינטראקטיבית של הגרף המהמם הזה.

הסבר קצרצרון: הגרף המוצג הוא גרף שכבות. ציר ה- X הוא זמן, וציר ה- Y הוא אחוז האנשים ש…עשו משהו. בכל נקודת זמן, העובי היחסי של כל פרוסה אומר מהו אחוז האנשים שעשו את אותו המשהו. הגרף מאפשר לזהות מגמות גדולות כמו למשל את שעות האוכל אשר נוגסות בפעילות העבודה. גם מעניין לראות כיצד אנשים שעוסקים בפעילויות בית, או בחופשה לא יאכלו בשעות קבועות כמו אלו שעוסקים בעבודה (נישמע לי מוכר).
הגירסה האינטראקטיבית של הגרף באתר של הניו-יורק טיימז מאפשרת ללחוץ על כל פרוסה ואז לראות את ההתפלגות שלה לאורך היממה. תהנו 🙂

day2day

תודה לאלעד על הלינק!

העלייה ה"מרשימה" (אך לא מובהקת סטטיסטית!) בקוראי מעריב

פוסט משותף עם עידו קינן.

בסופ"ש האחרון פנה אלי עידו וביקש ממני התייעצות קטנה. הוא נתקל בידיעה בעיתון מעריב, המדווחת על "עלייה מרשימה בחשיפה לעיתון" בהתאם לסקר TGI.
עליה מרשימה בחשיפה לעיתון מעריב

היות ועמדו לרשותו קובץ הנתונים של סקר TGI (להנתאכם, הנה הוא: TGI-media ), הוא התייעץ איתי האם המסקנה של עיתונאי מעריב תקפה או לא. מהסתכלות זריזה בקובץ, ראיתי שהתשובה היא חד משמעית – לא.

הנתונים בקובץ מספרים לנו שבמדד החצי שנתי, יש ירידה הדרגתית מ-16.6% (חציון 2 2007) ל-15.1% (ח1 2008) ל-13.8% (ח2 2008), ואז עליה קלה ל-14.4% (ח1 – 1 200). גם העליה הקלה בחציון האחרון נמצאת בטווח הטעות של הנתונים, היות שרווחי הסמך הם של אחוז אחד לכל אחד מהמספרים, בעוד שהעלייה הייתה של פחות מאחוז.

הנתונים שבעיתון מציגים את השינוי באחוזים, אבל לא את מידת הוודאות שבהבדלים (כלומר, את מידת הוודאות שלנו שאם נקח מדגם אחר נקבל תוצאות דומות). הגרף שלפניכם (אשר נוצר בעזרת התוכנה הסטטיסטית R), מציג את השינוי שנעשה באחוזי הקוראים אך משלב בתוכו את רווחי הסמך:

the big non rise

הגרף מדגים היטב שההבדל באחוזים איננו מובהק סטטיסטית, היות ורווחי הסמך "עולים" האחד על גבי השני. ואינם ניפרדים ממש בגובהם.

כדי לעשות מבחן סטטיסטי תקף, צריך להשתמש בנתונים הגולמיים ולבצע עליהם מבחן סטטיסטי מתאים (אפשר מבחן להפרש פרופורציות או מבחן חי בריבוע, הם שקולים מבחינת הערך P/רמת-המובהקות שהם יפיקו). הנה הטבלה של הנתונים (לקוחה מהנתונים של הסקר):

קוראים מעריבלא קוראים מעריב
יולי-דצמבר 2008 690.9664316.034
ינואר-יוני 2009721.0084285.992

הפעלה של מבחן חי בריבוע על הנתונים מביא לערך P של 0.40.
או במילים אחרות – אין שינוי מובהק באחוז הקוראים בין התקופה האחת לאחרת.

לסיכום: מעבר לבעיות המובנות בסקר TGI (כפי שעידו מציין בפוסט שלו), הבעיה אותה חשפנו כאן היא דיווח על מספר (אומדן לאחוז החשיפה לעיתון), מבלי התחשבות במידת הרעש של הנתונים (רווחי הסמך של האומד). חוסר התחשבות כזו מאפשרת להגיע למסקנות שגויות ביותר, ועל זה קיבלנו דיווח ממעריב. מזכיר קצת את הדיווח הלקוי שהתקשורת סיפקה לסקרי הבחירות האחרונות.

ועל זה כבר אמר מרק טווין הרברט וולס (H. G. Wells) – "החשיבה הסטטיסטית בעידן המודרנית היא מיומנות הכרחית לאזרחות טובה"

התפקיד של צבע בהשפעה על קבלת החלטות (תוצאות מחקר של חברת HP)

כסטטיסטיקאים, אנו נדרשים לעיתים קרובות לייצר גרפים שמטרתם להעביר מסרים ללקוח. מסיבה זו ראוי לסטטיסטיקאי לרכוש ידע על אופן העברת המסרים דרך גרפים. אחת המיומנויות הדרושות היא ההבנה של צבעים והשפעתם על הצופה, מסיבה זו החלטתי לחלוק איתכם את המחקר הבא של חברת HP אשר חקר את ההשפעה של שימוש בצבעים שונים על ההיענות של הנבדקים לאיגדים שונים. אני מציג את טקסט המחקר (כמעט) ללא עריכה משלי.

*     *     *     *     *     *     *

"חודש מאי הוא החביב עלי ביותר בשנה" –   "אני מרגיש מלא השראה היום"

המוטיבציה למחקר: המעצב ברוך נאה מציין כי לצבע תפקיד משמעותי בקביעת מידת ההסכמה, רמת המעורבות, יכולת יצירת היענות ואפילו משפיע על תהליך קבלת ההחלטות של אנשים

התוצאות: לפי מחקר שערכה קבוצת ההדמיה וההדפסה של HP באזור אירופה, המזה"ת ואפריקה (EMEA), אנשים מגיבים ביתר חיוב למשפטים המוצגים להם בירוק, בעוד שאדום מעורר את תגובות מנוגדות החזקות ביותר.

מסקנות: לצבע הירוק השפעה חיובית טובה יותר לעומת אדום כחול ושחור

פרטי המחקר:
שני המשפטים שהוצגו לקבוצת הנשאלים היו "חודש מאי הוא החביב עלי ביותר בשנה". "אני מרגיש מלא השראה היום".
המחקר, שנערך בקרב עובדים בתשע מדינות (מבוסס על מחקר שבוצע בהשתתפות 2,000 עובדים בין הגילאים 16-55 בבריטניה, צרפת, גרמניה, איטליה, הולנד, שבדיה, דרום אפריקה ורוסיה על-ידי חברת מחקר אינטרנט בלתי-תלויה (ToLuna. התבסס על סדרת "היגדים ניטראליים" שהודפסו בגופנים במספר צבעים- ירוק, אדום, כחול ושחור לקבוצות שונות של משיבים, שהתבקשו לציין את מידת הסכמתם להיגדים אלו.
הסכמה: מבחינת יכולת יצירת היענות וליצור הסכמה עם משפט כלשהו, הממצאים מצביעים שצבע ממלא תפקיד בתהליך קבלת ההחלטות. יותר ממחצית המשיבים (53%) ששתי השאלות שלהם היו בגופן ירוק הסכימו מאד עם ההיגדים, בהשוואה ל-36% מהמשתתפים שהשאלות שלהם הודפס בשחור.
עמדות קיצוניות: בנוסף, המחקר מצא מתאם בין עמדות מוקצנות ולבין הצבע אדום, כאשר כמעט פי 3 שאלות אדומות (29%) הניבו תגובות קיצוניות ("מסכים מאד" או "מאד לא מסכים") בהשוואה לשאלות הכתובות בצבע שחור (10%).
חוסר החלטיות: בחירת "לא יודע" נמצאה קשורה לצבעים כחול ושחור, וצבעים אלו יצרו שיעור חוסר החלטיות של 47% ו-43%, בהתאמה, בהשוואה ל-28% עבור ירוק ו-19% עבור אדום.

colors-agreement

ההיגדים: "חודש מאי הוא החביב עלי ביותר בשנה". "אני מרגיש מלא השראה היום". התוצאות הן לכל אזור EMEA משולב
הגרמנים הנינוחים ביותר: בניתוח של מדינות, רמת ההסכמה הגבוהה ביותר התקבלה בגרמניה, עם 60% מהמשיבים שהסכימו או הסכימו מאד עם משפטים שהוצגו בגופן ירוק, בעוד הנתון המקביל בהולנד היה 45% בלבד.
האנגלים הכי קיצונים: המשיבים בבריטניה היו בעלי שיעור התשובות הקיצוניות הגבוה ביותר (עם 35% שהסכימו מאד או לא הסכימו מאד עם המשפטים), בהשוואה ל-24% בלבד באיטליה.
הבדלים בין המינים: הסקר חשף גם כי פי שניים יותר גברים השיבו לסקר בקיצוניות (24%) בהשוואה ל-11% בין הנשים. אדום התברר כצבע הגורם לשונות הגדולה ביותר בתשובות. צבע זה עורר בשני המינים תגובות חזקות (34% מהגברים ו-24% מהנשים) בהשוואה להבדל נשים-גברים של 16% ו-3%, בהתאמה כאשר השאלון הודפס בדיו שחורה.

המעצב ברוך נאה מציין כי השימוש שנעשה היום בצבע הוא עדיין בגדר אומנות, יותר מאשר מדע מדויק אך לצבע תפקיד משמעותי בקביעת מידת ההסכמה, רמת המעורבות, יכולת יצירת היענות ואפילו משפיע על תהליך קבלת ההחלטות. ההשלכות בהקשר העסקי מעניינות מאד. הצבע חשוב במיוחד לחברות שמנסות לעורר תגובה מסוימת אצל קהל היעד או אפילו רק לבלוט בהשוואה למתחרים", הוסיף נאה.
עוד הוסיף נאה כי הסקר מאשר את האינטואיציה שלנו, ששימוש נבון בצבע יכול לשדרג מותג לרמת אפקטיביות גבוהה בהרבה ולחזק באופן דרמטי את השפעתו מבחינת ערך נתפס, מידת והתגובות שלהם לצבעים יכולות להיות שונות מאד וקשות מאד לניתוח או לחיזוי.

הפער בתחזית הפער: 3 או 12 (על סקרי בחירות ומיגבלותיהן)

המאמר שלפניכם הוא פרי מקלדתו של פרופסור יואב בנימיני מאוניברסיטת תל אביב. קריאה מהנה:

* * *

ביום רביעי שעבר פורסמו בשני ערוצי טלביזיה שני סקרי בחירות. לפי הסקר שפורסם בערוץ 10 היה לליכוד יתרון של 3 מנדטים על קדימה. לפי הסקר שפורסם בתוכניתו של נסים משעל בערוץ 2 היתרון היה 12 מנדטים. כיצד אפשר להגיע לפערים שכאלה? האם בכלל יש אמינות לסקרים בטרם בחירות, וכיצד למנוע את ההשפעות השליליות על ציבור הבוחרים?

סקר הבחירות שמפורסם במוצאי יום הבחירות הוא בגדר שעשוע תקשורתי ואינטלקטואלי – התוצאות האמיתיות כבר נקבעו, ויודעו בתוך יום. לעומת זאת לסקר בטרם בחירות השפעה רבה. הבוחרים יכולים ללמוד דרכו על התוצאה המסתמנת ומתוך כך לבחור לחזק או להחליש גוש מפלגות על ידי תמיכה במפלגה מסוימת, כמו גם לתמוך במפלגה שהיא בסביבת אחוז החסימה או להימנע מכך. המחוקקים בישראל הכירו בחשיבותם והשפעתם של סקרי בחירות בתקופה הסמוכה לבחירות, וקבעו כללים מיוחדים לפירסום תוצאותיהם.

כיצד יכולים להופיע פערים גדולים כל כך בתוצאות סקרים? נלך מהחשוב פחות אל החשוב יותר: למי שמממן את הסקר עלולה להיות השפעה אפשרית, על ידי הטיות קטנות במהלכו, כמו בחירת האוכלוסיה המיוצגת בסקר, סדר השאלות, או אפילו השפעה על נוסח השאלה שנשאלה. כך ניתן לצפות לשינוי ניכר בתשובה באם השאלה היא: "כידוע יש חשיבות בימים סוערים אלו לעמידה איתנה. מי לדעתך…" וזאת לעומת הפתיחה "כידוע גם בימים בוערים אלו יש לשמור על אופק של שלום. מי לדעתך…". לכן, כאשר דובר מפלגה מסוימת מדווח בשידור "לפי סקר בידינו", הזהירות צריכה להיות רבה. אם המממן ועורך הסקר הם גופים חסרי פניות אין לצפות להטיה מכוונת בהקשר זה.

חשוב מכך להבין מה גודל המדגם אליו פנו, איזה חלק ממנו סירב להשיב, ואיזה חלק מהמשיבים עדיין מתלבטים ומהווים קולות צפים. טעות הדגימה הניתנת בחלק מפרסומי הסקרים עונה על השאלה עד כמה יכולה להיות תוצאת הסקר שונה לו אנשים אחרים היו עולים במדגם. כך למשל, נתוני הסקר שפורסם בערוץ 10 פורסמו למחרת ב"הארץ" ומהם ניתן היה ללמוד שטעות הדגימה אינה מבוטלת: 3.2% שהם קרוב ל4 מנדטים. (עבור הפער בין שתי המפלגות הטעות גדלה לכ-6 מנדטים)

אולם לטעות זו מתווספות שתי בעיות שיכולות להיות חמורות יותר. המסרבים להשיב – שמעידים אולי על הטייה שיטתית שכיוונה אינה ידוע כלל, ואלו שטרם החליטו. כך למשל, המספר הגבוה של המסרבים להשיב הפיל כנראה בפח את סוקרי הפריימריז. הבלתי מחליטים מאתגרים תמיד את הסוקרים השונים כאשר לכל אחד שיטות שונות לפלח את דפוס הצבעתם העתידי, כמו גם לחזות באם ילכו לקלפי, על מנת לתת תחזית מנדטים. כמובן שהשיטה נשמרת בסודיות על ידי כל סוקר, אבל כל בוחר יכול לעמוד על גודל הטעות האפשרית מתוך אחוז הבלתי מחליטים. אם האחוז גדול, כמו בבחירות הנוכחיות בהן הוא עדיין קרוב ל30%, ההבדל שנובע משיטות הפילוח השונות יכול להיות גדול. במקרה זה צריך להתייחס בספקנות ראויה לכל התוצאות. כאשר אחוז זה יקטן, בטחוננו בתוצאות החיזוי יגדל.

לכן, בראותכם סקר בחירות שאלו מי מימן, מי ערך ומתי; מי נשאלו ומה; כמה סרבו להשיב, מהי טעות הדגימה וכמה עדיין מתלבטים; זאת על מנת להעריך את ערכו.
איך תדעו? לצערנו הדבר בלתי אפשרי. למרות שחוק תעמולת הבחירות מחייב לתת כמעט את כל המידע הזה עם פירסום או דיווח על תוצאות הסקר בעיתונות הכתובה והמשודרת, המציאות רחוקה מכך. במעקב חלקי של קבוצת מתנדבים מהאיגוד הישראלי לסטטיסטיקה התקבלה תמונה עגומה ביותר. לדוגמא, שני פרסומי הסקרים בטלביזיה שהזכרנו נתנו רק את המידע על עורכי הסקר ותחזית המנדטים ואפילו טעות הדגימה הושמטה, למרות שבאחד מהערוצים דנו בפער בין התחזיות. אפילו עיתון זה, שמתקרב ביותר לפירסום מלוא המידע הדרוש, לא נותן מידע על אחוז המסרבים להשיב.

על אמצעי התקשורת לשנות את דרך פירסום תוצאות הסקרים כבר במערכת בחירות זו. גם לוועדת הבחירות המרכזית תפקיד להבהיר את החובה במילוי החוק. עד אז, וגם לאחר מכן, התייחסו בזהירות הדרושה להשענות על תוצאות הסקרים בקביעת החלטתכם למי להצביע.

פרופ' יואב בנימיני
נשיא האיגוד הישראלי לסטטיסטיקה

אנחנו צועדים לקראת מגיפה ניורולוגית בעשורים הקרובים

בזכות השיפור ברפואה יותר ויותר אנשים זקנים נשארים בחיים. מצד אחד זה נהדר (אנחנו נקבל לראות את הורינו לעוד שנים). אך מצד שני, זה אומר שיותר אנשים חיים "יזכו" לחלות במחלות ניורולוגיות. בסרטון הבא (פחות מ- 4 דקות) מוצגות סטטיסטיקות המראות איך עד שנת 2050 אנחנו בדרך למגפה חסרת תקדים של מחלות ניורלוגיות:

לראות עד כמה החדשות לא מראות לנו

אליסה מילר הרצתה בטד (פחות מ- 4:30 דקות), והציגה את מפת העולם, לפי כמות הדקות של סיקור תקשורתי שכל מדינה קיבלה.
רק כ- 12% מזמן החדשות של ערוצים בארה"ב מוקדש לחדשות מהעולם. ערוצי החדשות בארה"ב הורידו ב- 50% את המחלקות של חדשות החוץ.
אלו, ועוד ערימה של מספרים, מוצגים בדרך וויזיואלית שמעבירה היטב את השאלה: האם התקשורת יוצרת את "ידע-העולם" שהיינו רוצים, בתרבות האמריקאית (שמתגאה בהיותה החזקה בעולם, ובעלת המודעות הגדולה ביותר ליחסים בינלאומיים).
ובכן, התשובה היא כמובן שלא, אבל מה שמעניין זה ההעברה של התשובה הזו.
צפייה נעימה:

להיות סטודנט בימנו – מה זה אומר (קליפ של 5 דקות)

הקליפ הבא נקרא "A Vision of Students Today" והוא מדגיש עד כמה סביבת הלימוד (האקדמית) של היום – כושלת בהתאמתה לתרבות החדשה, מבוססת אינטרנט, שהתפתחה בשנים האחרונות אצל הנוער.
הקליפ מציג שורה של פריטי מידע ("סטטיסטיקות"), אשר שוזרות את סיפור הסטודנטים של היום (מזכיר את המצגת "שינויים קורים"): סטודנטים שנמצאים בכיתה, אולי, ללא צורך. שלומדים חומר, אולי, לא רלוונטי. שרוכשים ספרים שהם, לרוב, לא קוראים. שמבלים את זמנם, רובו, ברשת – ובמנותק מהחיים האקדמיים שהם בונים.
האקדמיה, כמו שאר הענקים מהדור "הישן" (העיתונות, הטלויזיה, הפירסום הקלאסי) – ייאלצו להשתנות, או למות. והכתובת כתובה על הקיר (הווירטואלי):

(אגב, מי שפיתח את הקליפ הוא, כנראה, אותו אחד שאחראי על: Web 2.0 … The Machine is Us/ing Us )