ארכיון הקטגוריה: סטטיסטיקה

מבוא לבלוגוספירה של קהילת ה- R העולמית

בכנס האחרון של useR 2011, אשר התקיים באוניברסיטת ווריק אשר באנגליה, נתתי הרצאה זריזה של כ-5 דקות על הבלוגוספירה של קהילת ה-R העולמית (למי שלא מכיר, הנה הסבר קצר על מה זה R).

לאחרונה פנה אלי קוריאני חביב בשם צ'ל-הי-לי וביקש ממני להקליט את ההרצאה הזו על מנת שהוא יוכל להקרין אותה בכנס R שמתקיים השנה (2011) בדרום קוריאה. החלטתי לעשות זאת, והעליתי את ההרצאה (באורך של כ-7 דקות, באנגלית) לאינטרנט.

ההרצאה עוברת בזריזות על:

  • ההיקף בהתעניינות של הקהילה העולמית בבלוגרים שכותבים על R
  • על מה כותבים בלוגרי R
  • איך לעודד בלוגר שאתה מעריך לכתוב עוד
  • כיצד להתחיל בלוג R בעצמך
  • טיפים על איך לכתוב בלוג כזה
  • עצה אחת על כיצד לפרסם את הבלוג שלך (פשוט להירשם ל- r-bloggers.com)
  • שתי תחזיות קטנות לגבי העתיד של R והבלוגוספירה
תהנו:

(הפוסט הזה גם פורסם באנגלית בבלוג שלי על R)

20 היסודות לאינטראקציה עם היצגי נתונים – סיכום הרצאה

ביום רביעי האחרון נתתי הרצאה של 50 דקות בסדנת ויזואליזציה מטעם האיגוד הישראלי לסטטיסטיקה על סוגי הפעולות האפשריות ("היסודות") אשר אפשריים כאשר מבצעים אינטראקציה עם היצגים גרפיים של נתונים (או בלעז: Interactive Data Visualization). בפוסט הנוכחי בכוונתי:

  1. להסביר מה זה אינטראקציה עם היצגי נתונים ולתת את המוטיבציה הסטטיסטית עבורה
  2. לפרט ולהסביר את 20 היסודות לאינטראקציה עם היצגי נתונים
  3. לדבר על ההזדמנויות והאתגרים שמציבים בפנינו היכולת לאינטראקציה עם היצגי נתונים

כל הדוגמאות שיוצגו בפוסט זה יושמו באמצעות התוכנה GGobi (תוכנה חופשית/קוד-פתוח). בפוסט הנוכחי אני לא אדון בתוכנות שמיישמות את העקרונות שיתוארו. אני מקווה לעשות זאת באחד הפוסטים העתידיים. לבינתיים, הנה דמו של 5 דקות על השימוש ב- GGobi (אפשר לקרוא את המשך הפוסט גם מבלי לצפות בו) :

brutally short intro to ggobi from Mat Kelcey on Vimeo.

להמשיך לקרוא

כיצד להוריד את כל הקבצים מקורס אוניברסיטאי שנמצא ב- high-learn

הסמסטר אני מתרגל (בשימחה רבה) את הקורסים "ביוסטטיסטיקה" ו"מבוא לסטטיסטיקה" בבית הספר לרפואה באונ' ת"א ואת חלקם הפניתי לפה – ברוכים הבאים!

למען נוחות הסטודנטים, אני מפנה למדריך שכתבתי על כיצד להוריד את כל הקבצים השייכים לקורס אוניברסיטאי הנמצא תחת מערכת highlearn (מה שמכונה באוניברסיטת תל אביב: virtual tau):

סמסטר פורה ומוצלח.

איזה ביטוח בריאות כדאי לקנות כשטסים לחו"ל ?

בעוד שבועיים אני טס לארה"ב לכ-5 שבועות.
כחלק מההתארגנות שלי לטיסה, אני צריך לרכוש ביטוח בריאות לחו"ל למקרה ש"יקרה משהו".
אני לא שואל לגבי ביטוח צד ג', ביטוח במקרה של טיול אתגרי, או ביטוח על חפצים.
אני שואל את עצמי, באופן הכי פשוט, על ביטוח למקרה של מחלה או תאונה בטיול פשוט בעיר.
אז איזה ביטוח לרכוש?
חברות האשראי (כידוע) מציאות ביטוח חינם. קופות החולים גם הן מציאות ביטוחים (בתשלום) בהיקפים שונים של כיסוי. וגם סוכנויות הנסיעות מציאות ביטוחים.
אצל מי כדאי לרכוש, ובכמה? כיסוי של חצי מליון שקל או מליון וחצי?

שאלתי את חברי בפייסבוק ואחת התשובות שקיבלתי הייתה:
"בתכלס? מה הסיכוי בעצם שבכלל יקרה לך משהו, שבגללו תצטרך את הביטוח?
הוא לא כזה גבוה כדי שיהיה הבדל משמעותי בין הביטוחים…"

כאן נדלקה לי הנורה שאומרת "שווה לרגע לכתוב פוסט" ומדוע? כיוון שהספרות המחקרית על הפסיכולוגיה של קבלת החלטות היא ענפה. כיוון שהמחקרים מראים שהדרך שבה בני אדם מעריכים הסתברות שמשהו (כמו תאונה) יתרחש, מבוססת על הנחות שלא תמיד מתקיימת (ראו כהנמן וטברסקי שעשו על זה קריירה ואף זכו בנובל).
מה שאני מנסה לומר הוא שזה אחד המקרים בהם אין לי (כאדם שעוסק בסטטיסטיקה – אומנות הסקת המסקנות ממספרים) את הנתונים לדעת מהי ההחלטה שאני צריך לבצע.
מכאן שאני כותב את הפוסט הזה, אם למישהו מכם יש מחשבות או שיקולים מעניינים לחלוק בנושא – אשמח לקרוא אותן בתגובות.

ובשביל שהדיון יהיה יותר פורה, הנה ההרצאה המדהימה של דן גילברט (בטד) על "הציפיות השגויות שלנו"

כיצד העיתונות בארץ מפחידה אנשים שטלפונים סלולרים עושים סרטן

היום טילפנה אלי לסלולרי קרובת משפחה אהובה. לאחר מספר דקות שיחה, היא ציינה שפורסם מחקר ששיחה בטלפון עלול להגביר את הסיכון שלנו ללקות בסרטן מוח ב- 40%, ושאולי כדאי שלא נאריך בשיחה.

זו הזדמנות טובה לשאול, האם זו באמת המסקנה המתבקשת.

רקע: הידיעה ב-YNET על הסרטן מהסלולארי

נתחיל בעובדות, הנה צילום מסך של הידיעה שפורסמה ב- YNET. הכותרת הייתה "מחקר: חצי שעה בנייד מעלה ב-40% סיכון לסרטן"

ynet scientific

(אגב, שימו לב איך שמתחת לידיעה על סרטן המוח מהסלולרי, הופיעה במדור המחשבים הידיעה "לסלולרי: אוסף משחקי פנאי לטלפון אנדרואיד")

אבל האם באמת חצי שעה בנייד מעלה את הסיכון לסרטן ב- 40%?  ובעצם, מה זה אומר שהסיכון עולה ב- 40%? 40% ממה?

ובכן, נתחיל בלהכנס למאמר ולקרוא את הפירוט:

המחקר הבינלאומי הגדול מסוגו, שכלל כעשרת אלפים איש ב-13 מדינות, כולל ישראל, מצא סיכון מוגבר ב-40% לגידול מוחי בקרב אנשים המדברים חצי שעה ביום או יותר. פרופ' סדצקי, האחראית על המחקר: "התוצאות מטרידות – זמן החשיפה של הנבדקים זעום לעומת המקובל היום". החוקרים: מגבלות המחקר דורשות מחקר נוסף כדי לבסס את הקשר

הפיסקה הזו עדיין מאד מפחידה. נשמע שזה מחקר מאד גדול (עשרת אלפים איש ב- 13 מדינות), המחקר מצא סיכון מוגבר לסרטן ופרופסורית מוטרדת מהתוצאות. אבל מה אומר המשפט האחרון? "מגבלות המחקר דורשות מחקר נוסף כדי לבסס את הקשר"

מה זה אומר?

לשם כך נעיין בכתבה עד שנגיע אל הפיסקה שבה מצוטטת פרופסור סדצקי כאומרת: "תוצאות המחקר לא הוכיחו כי קיים סיכון, אך גם לא שללו סיכון כזה"

וכעת יעצור הקורא החרוץ וישאל: אבל אם לפני רגע היא אמרה שהתוצאות מטרידות, למה היא אומרת כעת שהמחקר לא הוכיח כי קיים סיכון? האם יש סיכון או אין סיכון?

בין תוקף מדעי למהומה עיתונאית

הכתבה הזו היא דוגמא מצויינת למצב שבו השאיפה של מדענים לטענות מבוססות מתנגשת בנטייה של העיתונות ליצר מהומה.

מצד אחד יש לנו מדענים שמנסים לומר דברים שיוכיחו את עצמם בעתיד. מדוע? ראשית מכיוון שזה אידאל טוב לשאוף אליו, ושנית מכיוון שאם מדען יטען טענה שתופרך בפעם הבאה שמישהו יעשה מחקר על הנושא, אז השם הטוב של המדען ייפגע (מה שישפיע על יוקרה, פירסומים, יכולת לקבל מענקים, קידומים וכו').

מן הצד השני, יש לנו את העיתונאים שרוצים להשיג את תשומת הלב של קוראיהם. מדוע? כיוון שהמשמעות של תשומת לב ציבורית לעיתון היא כסף (לרוב מפרסומת).  לעיתונת יש מוטיבציה ליצור הרבה הזעקות, אפילו במחיר של יצירת הזעקות שווא, הם הילד שקורא "זאב זאב" כמה שרק אפשר, כדי לקבל תשומת לב.

כמובן שאני עושה פה קריקטורה משני הצדדים. גם מדענים רוצים פירסום ותשומת לב, וגם לעיתונות יש שאיפה לשמור על שמם הטוב.  ואף על פי כן, קריקטורה של המצב היא כנראה התיאור המדוייק ביותר, ראו לדוגמא את הקריקטורה הבאה אשר מתארת את מעגל החיים של ידיעה מדעית:

science_news_cycle

אני חושב שזה בערך מה שקרה כאן היום.

אז מה עושים? בודקים מה כתוב במאמר

במקרה שנתקלים בידיעה כמו ב- YNET, הדבר האחראי (כלפי עצמנו) לעשות, הוא לחפש את המאמר המקורי שעל פיו נכתבה הידיעה.

במקרה שלנו, המאמר המקורי נקרא:
Brain tumour risk in relation to mobile
telephone use: results of the INTERPHONE
international case–control study
ואפשר להוריד אותו מכאן. (תודה לויקיפדיה האנגלית שמצאו את המאמר בשבילנו)

בתחילת המאמר מתוארות המסקנות של המחקר (הדגשה שלי):
Overall, no increase in risk of glioma or meningioma was observed
with use of mobile phones. There were suggestions of an increased
risk of glioma at the highest exposure levels, but biases and error
prevent a causal interpretation
. The possible effects of long-term
heavy use of mobile phones require further investigation.

המשמעות של זה היא שאיננו יודעים, שהמחקר איננו חד משמעי, שאין בו עדות בשביל הסקת מסקנות חד משמעית!
כמו שכתבתי בהרחבה בזמנו כאן, קורלציה איננה סיבתיות. זה ששני דברים קרו ביחד, לא אומר שהאחד גרם לשני.

והנה עוד קריקטורה בשביל ההפנמה שקורלציה איננה סיבתיות
קורלציה איננה סיבתיות

הבנו אותך, אבל תאכל'ס מה לעשות? להשתמש בסלולרי או לא?

פרופסור סדצקי (שאני משוכנע שמבינה בתחום היטב) אמרה: "לדעתי כמומחית בבריאות הציבור, האינדיקציות האלה מצדיקות נקיטת עמדה זהירה" והוסיפה כי "ישנה תת הערכה של הסיכון האמיתי וסביר להניח שהוא גבוה יותר".
עכשיו השאלה מה עושים עם זה.
מעיון במאמר, אני רוצה להפנות לעמוד 7 והילך, שם מופיעות הטבלאות שמסכמות את תוצאות המחקר.
מה שמעניין בטבלאות הללו אינם הנתונים, אלא דווקא התיאור של הנתונים בכותרת.
בתיאור נכתב: excludes use with hands-free devices
כלומר – הם הסירו מהצגת הנתונים שלהם את האנשים שהשתמשו בדיבוריות ואוזניות. ומה שאני שואל את עצמי (בקול רם) זה מדוע.
הנה הניחוש שלי (זה רק ניחוש, אני לא יודע באמת): אני מנחש שהם הסירו את הנתונים הללו, מכיוון שהנבדקים שהשתמשו בדיבוריות ואוזניות דיללו להם את האפקט. הם רצו לסיים את המחקר עם איזשהם תוצאות ברורות, והוספת הנבדקים הללו יצרה להם בעיה משמעותית בהצגת התוצאות.
המשמעות של זה עשויה להיות (אבל לא בהכרח), ששימוש באוזניות או דיבוריות מגינות על הסכנה הפוטנציאלית לסרטן כתוצאה מהשימוש בסלולרי.
האם זה באמת כך? אני לא יודע. בשביל זה הרי צריך לעשות מחקר…

ולפני שנסיים – מה זה בעצם סיכון מוגבר ב- 40% ??

(פה הכביש נהיה קופצני, ראו הוזהרתם)

סוג המחקר שמתואר בכתבה הוא של case control study (אחת משיטות המחקר היותר קלות, אך גם הרבה יותר בעייתיות, במחקר אפידמיולוגי).
שזה אומר – תמצאו לנו חולים (בסרטן מוח), אז תמצאו אנשים בריאים שדומים לחולים. ואז נשווה את פרופורציות השימוש של כל קבוצה בסלולרי. אם אחוז
זהו מדד לקורלציה בין הסרטן לשימוש בסלולרי.
המדד שבו השתמשו במחקר כדי לתאר "עליה בסיכון" מכונה odds ratio (אפשר לקרוא עליו עוד, הרבה, כאן)
לדוגמא: נניח שיש לנו 150 חולי סרטן. 50 מהם השתמשו בטלפון סלולרי למול 100 שלא השתמשו.
לעומתם, היו לנו 125 אנשים בריאים (הביקורת), 25 השתמשו בסלולרי למול 100 שלא השתמשו.
במצב כזה, ה- OR יהיה 50/100 ואת זה נחלק ב- 25/100 סך הכל אנחנו מקבלים OR = 2.
כלומר, בדוגמא שהבאתי, יהיה סיכון גדול יותר למשתמשי סלולרי בקבלת סרטן.

אבל המדד שמעניין אותנו לדבר עליו איננו ה- OR אלא ה- RR.
RR (או Relative Risk), משמעותו מדד ל"סיכון יחסי" המשמעות שלו (שהיא זו שמעניינת אותנו) היא מהו היחס בין אחוז החולים בסרטן אצל המשתמשים בטלפון סלולרי, חלקי אחוז החולים בסרטן אצל הלא משתמשים בטלפון סלולרי.
או במילים אחרות, כמה יותר חולים יהיו לנו בסרטן, בגלל שהם השתמשו בטלפון סלולרי.
אז לדוגמא, אילו ה- RR היה שווה ל- 2, זה היה אומר שאם כולם משתמשים בטלפונים סלולרים, אז חצי מהמקרים שחלו בסרטן היו יכולים להיחסך, אם לא היינו משתמשים בטלפונים סלולרים.
אבל רגע, מה שהמחקר שלנו בדק היה OR, לא RR. אז איך אפשר לקשר בין האחד לשני?
התשובה היא שבמקרים שבהם מדובר במחלה מאד נדירה (לדוגמא… סרטן מוח), אז ה- OR הוא די קרוב ל- RR (עוד על כך אפשר לקרוא כאן).
לכן, במקרה של המחקר שלנו, אם הם קיבלו OR של 1.4 עבור שימוש כבד בסלולרי ( של חצי שעה ביום), למול אי-שימוש, אז מכיוון שסרטן המוח זה דבר נדיר הם יכולים לומר שבעצם יש להם אומדן לא רע לכך שה- RR = 1.4.
כלומר, שבאוכלוסיה של משתמשי הטלפון הסלולרי יהיופי 1.4 יותר חולים בסרטן המוח מאשר היו אצלם אילו כל האוכלוסיה לא הייתה משתמשת בסלולרי.

דוגמא נוספת, ה- RR (סיכון יחסי) לקבלת סרטן ריאות עבור אנשים מעשנים הוא 23.3 (לפחות לפי הנתונים שכאן).
כלומר, יש פי 23.3 יותר מקרים של סרטן ריאות אצל אנשים שמעשנים, מאשר היה אילו הם לא היו מעשנים.

אז לסיום – לדאוג או לא??

באופן עקרוני – לדאוג. באופן ספציפי – לא לדאוג.

המחקר שבוצע לא יודע לומר לנו מה המצב.
הוא רק מצביע על כיוון שיש טעם לחקור אותו יותר לעומק.
האם אני חושב שכדאי לחקור את הנושא יותר? בהחלט! היות ותפוצת השימוש בסלולרים היא עצומה, הבדיקה של אופן השימוש הבריא במכשיר הזה היא הכרחית.
האם אני חושב שהממצאים של המחקר הנוכחי מעידים על סכנה? לא. הם מעידים על אפשרות תאורתית פוטנציאלית לסכנה, מה שאומר שצריך לבדוק – זה לא אומר שיש סכנה. באותה מידה בדיוק, המחקר הנוכחי גם גילה שאנשים שמשתמשים בסלולרי באופן קל עד בינוני הם בעלי פחות סיכון לחלות בסרטן המוח מאשר אנשים שלא משתמשים בסלולרי בכלל (בחיי, תפתחו את המחקר ותקראו). החוקרים חושבים שהסיבה לזה היא בחירה מוטה של קבוצת הביקורת אליה הם השוו את החולים (בעיה ידועה במחקרים מקרה-ביקורת). אז האם זה אומר ששימוש בסלולרי (אבל לא יותר מידי) בעצם מגן על אנשים מסרטן מוח (מאשר אם הם לא היו משתמשים במכשיר בכלל). גם כן לא – הם מעידים על אפשרות תאורתית פוטנציאלית לזה שיש פה גורם מגן.
איך יודעים? מבצעים מחקר מסוג שהוא בעל תיקוף מדעי חזק יותר מאשר מקרה-ביקורת (לדוגמא, מחקר עוקבה כבר יהיה שיפור).

* להזכיר: אינני רופא, פסיכולוג, כירפורקט, פסיכופט או ניורולוג – אין במאמר זה משום מתן המלצה בעלת יומרה רפואית משום סוג שהוא. רוצים עצה מקצועית – אנא פנו למומחה ושלמו לו עבורה 🙂

יום עיון בנושא "יישומי סטטיסטיקה בשיווק"

אני אהיה שם.

הכנס השלישי של הקבוצה הישראלית ליישומי סטטיסטיקה בתעשייה ובעסקים – isENBIS

יום עיון בנושא "יישומי סטטיסטיקה בשיווק"

יום ראשון, י"א באייר תש"ע, 25 באפריל 2010

קריית האוניברסיטה הפתוחה ע"ש דורותי דה רוטשילד

אולם נוידרפר, דרך האוניברסיטה 1, רעננה

(הכניסה לחניה מרחוב ויצמן – צומת רעננה צפון; החניה ללא תשלום)

כניסה חופשית עם רישום מוקדם באתר http://www.kpa.co.il/isENBIS

15:00 – 14:30  התכנסות ורישום

מנחה: פרופ' דוד שטיינברג חוג לסטטיסטיקה וחקר ביצועים, בית הספר למדעי המתמטיקה, אוניברסיטת תל אביב

15:10 – 15:00 ברכות: פרופ' עירד בן גל, המחלקה להנדסת תעשייה, אוניברסיטת תל אביב,ד"ר יובל כהן, הנדסת תעשיה וניהול האוניברסיטה הפתוחה

15:40 – 15:10 רות לוריא, מנהלת המחקר, מחלקת השיווק הקמעונאי, קוקה קולה: "אם לא תשאל, איך תדע?"

16:10 – 15:40 ד"ר יובל כהן, ראש התוכנית להנדסת תעשייה וניהול, האוניברסיטה הפתוחה:"שיווק חבילות הנחה לקמעונאים עם ביקוש אקראי"

16:30 – 16:10 הפסקת קפה

17:00 – 16:30 פרופ' רון קנת KPA בע"מ, ואוניברסיטת טורינו, נשיא לשעבר של  ENBIS:"פעילויות מתוכננות של ENBIS"

17:30 – 17:00 מנו גבע, מנכ"ל מכון המחקר "מדגם" ויו"ר איגוד מכוני המחקר הישראלי:"סקרי דעת קהל ומחקרי שוק באינטרנט"

18:00 – 17:30 ד"ר דיאמנטה בנסוןקרעי, האוניברסיטה הפתוחה: "חיזוי חדירה לשוק של מוצרים חדשים בעלי עקומת ביקוש בצורת S באמצעות שיטת RMM (Response Modeling Methodology)"

פרטים והרשמה: KPA בע"מ, ת"ד 2525 רעננה 43100,

טל':  7408442 – 09, פקס': 7408443- 09  דוא"ל: info@kpa.co.il

ענת קם – הקשר בין עמדות פוליטיות לדעות על הפרשה

(אם הגעתם בשביל התוצאות, הם מופיעות בסוף הפוסט). כנסו לכאן אם ברצונכם למלא את השאלון ולהופיע שוב בניתוח המעודכן

רקע – ענת קם

חברי המלומד (והמתפלסף) טל ירון לקח על עצמו באחרונה לכתוב באריכות על ענת קם.
למי שלא הספיק להתעדכן, זה בסדר – אתם לא אמורים לדעת על זה.
ממה שהתפרסם בעיתונות ה"זרה", בארץ,  בטוויטר, בויקיפדיה (כלומר, הערך על ענת קם נמחק, אבל הדיון על המחיקה נשאר) ובבלוגוספירה בכלל (לדוגמא: פה, כאן, שם, וגם ב |||||, וגם זה וכמובן הוא וגם זה, ובטח שכחתי כמה…), נראה שהסיפור הוא ש (ואני מצוטט את טל ירון):
בהמלצת חברים – הסרתי את הטקסט עד להסרת צו איסור הפירסום

ענת קם, שהיתה חיילת בפיקוד מרכז, העבירה לאורי בלאו, כתב הארץ כאלף מכתבים, המסווגים סודי-ביותר. מתוך אלף המכתבים, הצליח הכתב אורי בלאו להשיג אישור מהצנזור לפרסם שני מכתבים. המכתבים מכילים פקודות שנתן יאיר נווה, אלוף פיקוד מרכז, לחיסול ממוקד של מבוקשים שלא לצורך, בניגוד להוראות בג"צ בעניין. ככל הנראה, מערכת הבטחון פעלה כדי לאתר את מקור המידע של בלאו. בדצמבר 2009, ענת קם, שהייתה כבר עיתונאית בוואלה, נתפסה. אורי בלאו, הכתב, ברח לבריטניה, כדי לחמוק מעדות במשפטה של קם. […]
החל מאוקטובר הוציאה מדינת ישראל (כנראה לבקשת השב"כ) בבית משפט השלום צו איסור פרסום על הפרשה.[…] אף עיתונאי לא הסכים לפרוץ את מעגל השתיקה […]. אבל הסוד לא נשמר זמן רב, מרגע שמספר בלוגרים לקחו על עצמם את היוזמה לפרסם את המידע. מרגע שזה קרה, הרשתות החברתיות התעוררו והתפוצצו במידע על הסיפור. והוא זכה לתפוצה רחבה מאד באינטרנט (חפשו בגוגל "ענת קם" ותראו כמה תוצאות תקבלו על הנושא).

(עידכון 8.4.2010: לינק למאמר בווינט בנושא)

רקע – סקר הדעות של הקוראים לגבי ענת קם

ומה בין זה לסטטיסטיקה?
ובכן, עושה רושם שהדעות בציבור לגבי הפרשה (שכמובן אף אחד לא שמע עליה), הן חלוקות. יש אנשים שהם בעד ענת קם ויש אלו שנגד, בעד אורי בלאו, ויש נגד, בעד יאיר נווה, ויש נגד.
ההגיון דורש שיהיה קשר בין העמדות הפוליטיות העקרוניות של האנשים לבין התפיסה שלהם את הפרשה המסויימת הזו. את הקשר הזה ביקש טל ירון לגלות באמצעות עריכת "סקר משפט ציבורי" בנושא של ענת קם וסביבותיה. נכון לרגע זה כ- 78 איש ענו על הסקר (אני, אגב, לא עניתי). ואת הניתוח הסטטיסטי של הסקר נתבקשתי לבצע – ואבצעו כאן כעת.

ניתוח סטטיסטי של הסקר

אז לפני שנפנה להציע ניתוח של הסקר, נאמר מילה על מה אפשר לקבל ממנו: הסקר לא מייצג נאמנה אף "קהל" מלבד קהל הקוראים של הבלוג של טל ירון. להניח שהקהל הזה איכשהו מייצג את האוכלוסיה הרחבה זה יהיה גוזמה לא ריאלית. גם הקשרים הסטטיסטיים שיתקבלו בין המשתנים עשויים להיראות אחרת אילו הסקר היה מוצג לאוכלוסיה הרחבה (ואני לא אכנס היום להסבר מדוע), מה שאומר שהסקר הזה הוא בעיקר לשם השעשוע, וקבלת התחושה הבסיסית של איך הקשרים בין המשתנים עשויים להיראות.

הסקר מורכב מארבע שאלות העוסקות בעמדות הפוליטיות של אנשים וב-5 שאלות העוסקות בדעות של האנשים על הפרשה של ענת קם.
טל ירון ביקש שהניתוח שלי יענה על שתי שאלות:
1) האם יש קשר בין השקפת העולם למצב גיבורי הסיפור
2) האם יש קשר למפלגה ולהשקפת העולם

כדי לענות על השאלות הללו, הרי שלא יעזור לנו הסתכלות חד ממדית על כל אחד מתשעת המשתנים שלנו (זה מה שגוגל מציע, וזה לא עוזר במיוחד לענות על השאלות).
אף על פי כן, הנה תוצאות הניתוח על פי גוגל (לחצו על התמונה לגירסה מוגדלת)

anat kam - google spraedsheet analysis - 1

אני לא התייחס בהרחבה לתוצאות הללו, אתם מוזמנים לעבור על התמונה ולהתרשם בעצמכם.

ניתוח סטטיסטי של הסקר – ניתוח דו-ממדי – שיקולים סטטיסטיים

כדי לענות על השאלה שטל ירון שאל, עלינו להשוות בין התוצאות במשתנה אחד לתוצאות באחר. אני אתחיל מלתאר כמה מהשיקולים בכלים הסטטיסטיים בהם השתמשתי ואז אציג את התוצאות.
הכלים בהם נשתמש כאן הם:
0) גוגל דוק – היכולת שלי לבצע את הניתוח הסטטיסטי הזה בזריזות ובקלות, מסתמך על זה שהנתונים נאספו (על ידי גוגל-טפסים) הישר לתוך גליון שאותו יכולתי לשאוב לתוך R (התוכנה הסטטיסטית האהובה עלי). כתבתי עוד על החיבור בין השניים בפוסט: Google spreadsheets + google forms + R = Easily collecting and importing data for analysis
1) קורלציות – אנחנו רוצים לראות מהי הקורלציה בין כל צמד משתנים. נשים לב שהיות והמשתנים שלנו הם קטגוריאליים סדורים, הרי שהקורלציה היותר מתאימה כאן היא זו של ספירמן (הא-פרמטרית) ולא זו של פירסון (שמתאימה לנתונים רציפים).
2) תרשימי פיזור – נשים לב שבמקרה שלנו תרשימי פיזור הם אתגר. מדוע? כיוון שכאשר מציגים תרשים פיזור עבור זוג משתנים עם 5 רמות בלבד, צפוי שנקבל הרבה נקודות שיעלו אחת על גבי השניה. ואז השאלה היא כיצד להציג מצב כזה. אני בחרתי לפתור זאת באמצעות שינוי גודל הנקודות (ככל שיש יותר נקודות במקום מסויים, כך גודל הנקודה המייצגת תהיה גדולה יותר). וגם, על ידי הוספה של קו מגמה מוחלק (LOWESS, למי שהיה סקרן לדעת).
3) השילוב הרב ממדי – השילוב של הצגת הרבה זוגות של השוואות (בהקשרנו) מתבצע על ידי גרף שנקרא "תרשים מטריצת-פיזור של קורלציות". הסברתי עוד כיצד אני מייצר את התרשים הזה ב- R בפוסט Correlation scatter-plot matrix for ordered-categorical data . אגב, נשים לב שבמקרה שמישהו לא ענה על אחת השאלות, החלטתי להסיר את התשובה שלו מהתרשים (המדקדקים היו ממלאים את הנתון שלו בנתון זמני, אבל החלטתי לוותר על זה ולהציג רק אנשים שהשיבו על כל השאלות. כמו כן, התעלמתי מסוגיית ההשוואות המרובות – עמכם הסליחה)
(הערה אחרונה – שימו לב שהניתוח שלי הצליח לשאוב את העברית של גוגל-מסמכים לתוך התוכנה R, ולהציג אותה בפלט. בהזדמנות קרובה אני אכתוב פוסט שבו הסברתי איך עושים זאת. אך לבינתיים תדעו שזה אפשרי וגם שזה לא טריוויאלי לעשות…)

ועכשיו, לתוצאות –
להמשיך לקרוא

האם (בארה"ב) למפגינים כנגד רפורמת הבריאות יש תפיסה מוטה של מיסוי במדינתם?

רקע (מקור: ויקיפדיה)

בארה"ב, החוק להגנת החולה וטיפול בר השגה (אנגלית: Patient Protection and Affordable Care Act) הוא חוק (חלק מרפורמת הבריאות) שנועד להסדיר מתן שירותי בריאות לתושבי ארצות הברית. החוק נועד למנוע את המצב בו עשרות מיליוני אמריקנים אינם מבוטחים, למנוע מאמריקנים שמבוטחים לאבד את ביטוח הבריאות שלהם עקב החלפת מקום העבודה דרכו הם מבוטחים, או עקב טענות חברות הביטוח שהטיפולים נובעים ממצב בריאותי שקדם לתחילת הביטוח, ונועד למתן את הגידול בהוצאות על בריאות. החוק אושר בבית הנבחרים ב-21 במרץ 2010. נשיא ארצות הברית, ברק אובמה, אישר את החוק למחרת. אובמה הצהיר כי הוא מחשיב את החוק בתור ההישג הפוליטי הגדול ביותר שלו.
הרפורמה במערכת הבריאות תבטיח לראשונה ביטוח בריאות ליותר ל-30 מיליון אמריקאים שעד לאישורו לא היו מבוטחים כלל.

בשבלינו אזרחי מדינת ישראל, אשר כולנו מקבלים ביטוח בריאות כחלק מהותי משירותי המדינה אלינו, המצב של אזרחים בארה"ב (ומה שהרפורמה הזו מנסה לפתור) יכול להיות בלתי נתפס.

המחלוקת – "מפגיני מסיבת התה"

על פניו, נישמע שכולם צריכים לתמוך בזה (וברפורמת הבריאות באופן כללי), אך זה איננו המצב. קבוצה של (לרוב, רפובליקנים) החלו תנועה של הפגנות המכונות "הפגנות מסיבת התה" (עוד על כך כאן), אשר מפגינים בכלל על כל צורה של העלאת מס, ובפרט העלאת המס שתידרש (שאני לא בטוח עד כמה היא בכלל תהיה) בעקבות העברת רפורמת הבריאות שאובאמה קידם.

כדי להמחיש את הדרמטיות של התנגדות המפגינים, הנה סרטון (של פחות מדקה) המראה כיצד מפגינים צועקים על חולה פרקינסון שהתיישב והפגין (בעד רפורמת הבריאות) כנגד המפגינים (כנגד רפורמת הבריאות)

אגב, חולה הפרקינסון הזה הוא בן 60, אובחן בפרקינסון לפני 15 שנה, ולפני כן הוא עבד כמהנדס גרעיני. הוא מחזיק שני תארים שניים ודוקטורט מאוניברסיטת קורנל. הסיבה שהוא עוד לא מת היא כי הוא שילם (בעזרת ביטוח בריאות חלקי) 150,000$ עבור ניתוח שנועד להעריך את איכות חייו. ניתוח שבארץ, כנראה, שהוא היה מקבל גישה אליו בהשתתפות סימלית בהרבה. זה למה הוא מפגין בעד רפורמת הבריאות שאובאמה והדמוקרטים מקדמים. (הנה סרטון שבו בוב, חולה הפרקינסון, מדבר)

אז למה הם מתנגדים?

אחת השאלות שדמוקרטים (כמו, לדוגמא, אישתי הנהדרת) שואלים היא מדוע בכלל האנשים הללו מתנגדים לרפורמת הבריאות. הרי המצב כיום בארה"ב הוא מפלצתי, לפיו המערכת איננה מסוגלת לחשוב באופן של רפואה מונעת, וכל ניסיון להיעזר בשירותי הבריאות מסתכם במאבק (של אנשים חולים) למול חברות הביטוח, אשר יכול בפעמים רבות להוביל לפשיטת רגל של החולה (זו, מסתבר, אחת הסיבות השכיחות ביותר לפשיטות רגל בארה"ב – טיפול רפואי לאנשים ללא ביטוח בריאות "טוב").

וזה מוביל אותנו לסטטיסטיקה.

תפיסת המיסוי של ארה"ב אצל "מפגיני מסיבות התה"

דוד פרום (מישהו), הגיע לאחת מההפגנות של מסיבות התה, ופנה אל המפגיני בשאלה פשוטה "(לדעתכם) כמה מיסים גובה ממשלת הממשלה הפדרלית בארה"ב מהמשק?". על השאלה השיבו 60 מתוך כמה מאות המפגינים שנכחו במקום. הסטטיסטיקות שקיבלנו מתשובות הנבדקים היו (מקור):

תשובה ממוצעת: 42.06% (זוהי התשובה הממוצעת של אחוז המיסוי שאנשים אלו מאמינים שארה"ב גובה מהמשק)
סטיית תקן: 19.06%
מספר מפגינים שנשאלו: 60

התשובה הנכונה היא (על סמך המקור) 31.5%, שזה פחות ממה שהמפגינים ענו בממוצע. השאלה (הסטטיסטית) היא האם אמונת המפגינים לגבי שיעור המס היא מוטה כלפי מעלה באופן מובהק.

ננסח את השאלה באופן יותר מדויק: בהנחה שהמדגם של 60 איש שנשאלו הוא מדגם מייצג לדעות של אנשים מהסוג שמשתתפים בהפגנות מסוג זה (כלומר שהסוקרים לא פנו לשאול, לדוגמא, רק את האנשים שנראו הכי קיצוניים בהפגנה), האם יש לנו מספיק נתונים כדי לדעת האם הדעות של הפגינים מוטות (באופן מובהק סטטיסטית) להיות מעל למציאות? התשובה לדעתי היא כן.

ננסח את השאלה שוב (הפעם, יותר "סטטיסטית"): האם יש לנו עדות מספקת להניח שהתוחלת של התפלגות התשובות של המפגינים, היא שונה (באופן מובהק סטטיסטית) מהערך האמיתי? (זוהי השערת ה-0. ההשערה הנגדית אומרת, שייתכן והמפגינים כן ענו, בממוצע, את הערך הנכון)

באמצעות משפט הגבול המרכזי (לינק למאמרון ויקיפדיה בנושא) נענה על השאלה. לפיו אנו יודעים שהתוחלת של תשובות המפגינים שואפת להתפלגות הנורמאלית. לפי זה נוכל לחשב מהו הרווח בר-סמך התחתון של תוחלת תשובת המפגינים (או בתרגום: מהו הערך הנמוך ביותר שהיינו יכולים לחשוד שהוא הממוצע/התוחלת האמיתית של תשובות המפגינים). המספר יהיה:

42.06 – 1.96 * 19.06/sqrt(60) = 37.24

כלומר, המספר הכי נמוך (כאשר מדברים על רווח בר סמך דו-צדדי) של 95%) שאפשר לצפות שהוא התוחלת האמיתית של תשובות המפגינים, הוא 37.24%. שזה יותר גבוה מ – 31.5% מס (שהוא הערך האמיתי).

למעשה, ההסתברות שנקבל את התוצאות שקיבלנו מהשאלון, בהינתן שהערך האמיתי של תוחלת תשובות המפגינים היא 31.5% היא ערך P (P value) – של  1.623788e-05

(הפקודה ב- R לחישוב היא:

dnorm(42.06,31.5, 19.06/sqrt(60))

)

שאלה שניה שנשאלה הייתה "כמה מס הכנסה פדרלי אתם מאמינים שמשלמת משפחה ממוצעת (עם הכנסות של 50000$ לשנה) ?"
ביחידות של 1,000 דולר, התשובות היו:
תשובה ממוצעת: 12.71
סטיית תקן: 12.06
מספר מפגינים שנשאלו: 60
התשובה הנכונה היא (על סמך המקור) 7.5, שזה פחות ממה שהמפגינים ענו בממוצע. השאלה (הסטטיסטית) היא האם אמונת המפגינים לגבי שיעור המס (המוטל על משפחה ממוצעת) היא מוטה כלפי מעלה באופן מובהק.

כמו קודם, החישוב מראה שכן. עם ערך P של: 0.00094
קוד ה- R לחישוב היה:
dnorm(7.5,12.71, 12.06/sqrt(60))

(קישורון לכיף – הנה דוגמא לפוסט שיוסי לוי כתב בזמנו, בו הוא גם השתמש במשפט הגבול המרכזי: "סקר לדוגמא")

אז מה המסקנה?

המסקנה שלי מהסקר היא שאנשים שלא רוצים שיעלו את המיסים בארה"ב, יש תפיסה פסימיסטית לגבי מצב המיסוי הנוכחי בארה"ב.

שאלת המליון היא מהי כיוון הסיבתיות במקרה שלנו. האם התפיסה הפסימיסטית הזו היא זו שמובילה את האנשים להפגין (ולתת כזה יחס עויין לנושא), או שבגלל שלאנשים אלו יש סיבות אידיאולוגיות לוחמניות כנגד מיסוי (לא משנה איזה מיסוי), הם נוטים להגזים במה שהם חושבים שהוא מצב המיסוי הקיים בארה"ב.

אילו האפשרות הראשונה הייתה נכונה – אז ייתכן שמתן המידע המעודכן לגבי המצב המדוייק, הייתה עוזרת. אילו האפשרות השניה היא הנכונה (מה שהוא הניחוש שלי), אז הסיפור הוא אידיאולוגי/מוסרי – והדיון בו ראוי להתקיים במישור הזה.

אגב, כששאלתי את אישתי מה היא מנחשת שהוא אחוז המיסוי בארה"ב, היא ניחשה 25%. (לא רלוונטי, כיוון שאינני בטוח שאפשר להשוות את המדינה ממנה אישתי מגיעה למדינה שממנה הגיעו הנסקרים)
זה היה יכול להיות מעניין לחזור על סקר דומה באוכלוסיה רחבה יותר, ולראות כיצד התפיסה משתנה לפי עמדות פוליטיות.

* * * *
עידכונים בפוסט:
1) אנשים בתגובות תיקנו אותי שהשאלה נשאלה על מס פדרלי שנגבה, ולא "מס" באופן כללי.
2) אנשים שאלו כיצד המספר היחיד ה"נכון" של המס חושב, בהינתן זה שזהו מס שמשתנה בין מדינות. התשובה היא שאינני יודע. אני משער שמדובר במס הרלוונטי במדינה שבה נערך הסקר. הקורא החרוץ מוזמן לעקוב אחר הקישורים שסיפקתי כדי למצוא את הידיעה המקורית ולראות אם הכותב מספק תשובה. בפוסט זה הנחתי שהוא יודע על מה הוא מדבר (ייתכן וטעיתי, אבל לכרגע אני מרשה לעצמי אופטימיות)

* * * *

תגובותיכם יתקבלו בברכה 🙂

ייעוץ סטטיסטי חינם

ההודעה הבאה היא בשם המנחה שלי לתואר, פרופסור יואב בנימיני (ראש המעבדה לייעוץ סטטיסטי):

במהלך סמסטר ב' תש"ע (עכשיו) יינתן ייעוץ סטטיסטי על ידי תלמידים מתקדמים לתואר שני בסטטיסטיקה ובביוסטטיסטיקה במהלך לימודיהם ולכן מפגש הייעוץ יהיה ללא תשלום. ויכול לסייע בשלל צרכים, כגון:

• תכנון ניסויים
• בחירת גישה לניתוח הנתונים
• הוצאת מסקנות לאחר ניתוח הנתונים
• כריית מידע קיים
• ויזואליזציה של תוצאות

להרשמה למפגש ייעוץ שכזה, נא שלחו email לכתובת: Tau.Stat.Lab@gmail.com
עם תיאור קצר של הבעיה ושל הנתונים שבידיכם וכן כתובת אלקטרונית וטלפון לתאום מפגש עם היועץ.
פעולת הייעוץ של התלמידים מונחית על ידי הצוות הבכיר של המעבדה לסטטיסטיקה (פרופסור יואב בנימיני, אילנה ואנוכי).

מספר הבקשות שנוכל להענות להם מוגבל ולכן כל הקודם זוכה.

כיצד כולנו הולכים ללמד את גוגל לקרוא

גוגל הכריזה על רכישת השירות ר-קפצ'ה.

המשמעות של זה היא שגוגל תאסוף מידע שיאפשר לה ליצור אלגוריתמים סטטיסטיים מתקדמים לזיהוי תווים.

כתבתי על זה עוד בבלוג שלי, אתם מוזמנים להכנס ולקרוא:

"על הרכישה של גוגל את ר-קפצ'ה"