רגישות, סגוליות וערכי ניבוי – למה כדאי שכולכם תדעו את זה (וגם איך מחשבים)

פורסם בתאריך 30 נובמבר, 2011
נושאים אפידמיולוגיה, לסטודנטים, סטטיסטיקה, סטטיסטיקה תיאורית | 7 תגובות

למה כדאי שכולכם תרפרפו על המאמר שכתבתי? (כלומר – למה כדאי שתפיצו את המאמר הזה לחבריכם)
כי כל פעם שאתם ניגשים לבדיקה רפואית שמחליטה האם אתם "בריאים" או "חולים" – כדאי שתדעו לשאול מהו הערך המנבא החיובי ומהו הערך המנבא השלילי. מדוע? כדי שתבינו, בהינתן שהובחנתם כבריאים/חולים – מה הסיכוי שההבחנה שקיבלתם באמת מתארת את המציאות.
ביום שבו תצטרכו להבין את זה (וזה יגיע), כדאי שתזכרו את המאמר הזה – ותקראו אותו טוב (בניגוד לריפרוף הראשוני שבו אתם בטח תקראו אותו כעת).

בפוסט שלפניכם אני מתחיל מלהסביר (לאט לאט) מה זה "רגישות", "סגוליות" ואז עובר להסביר מה זה "ערך מנבא חיובי ושלילי". אני מראה כיצד השתמשתי בכל המונחים הללו כדי לחלץ את התשובה לשאלה: "בהינתן שאישה עברה ממוגרפיה והובחנה כחולת סרטן השד – מהי ההסתברות שבאמת יש לה סרטן השד?" (התשובה מופיעה בסוף הפוסט)

ונתחיל….

להמשך

הזמנה לערב הרצאות (כולל אחת שלי) לכבוד יום הסטטיסטיקה הבינלאומי

פורסם בתאריך 3 נובמבר, 2011
נושאים אירוע | השארת תגובה

ב-14.11.2011 יתקיים ערב בן 5 הרצאות קצרות שיסקרו את נושא הסטטיסטיקה מכיוונים שונים לכבוד יום הסטטיסטיקה הבינלאומי (שכבר התקיים ב-20.10.2011).

התכנסות בשעה 20:00, ההרצאות יחלו ב-20:30. האירוע יערך בפאב גורדו (נראה שהכתובת היא הירקון 121, חוף גורדון, טיילת תל אביב)

ניתן להרשם ולהפיץ לחבריכם או שונאיכם באמצעות האירוע בפייסבוק.

10 ש"ח דמי השתתפות לכיסוי הוצאות לוגיסטיות.

אני אתן בערב את ההרצאה "כיצד חוקרים עכברים שחוקרים את סביבתם", הנה התקציר:

יום אחד עכבר קם בבוקר, מחליט שהוא סקרן, ומתחיל ללכת. לאן הוא הולך? מתי הוא חוזר? כמה הוא מטייל? האם הוא מתרגש? ולמה זה בכלל מעניין אותנו (כחוקרים) לדעת?
טל גלילי, הוא דוקטורנט לסטטיסטיקה באוניברסיטת תל אביב, אוהב קוד פתוח ומידע חופשי, ובלוגר במדריך לטרמפיסט בסטטיסטיקה.

כנסו לאתר הספקנים בפאב, בשביל פירוט של שאר ההרצאות שיתקיימו בערב. שאר ההרצאות יתקיימו על ידי אנשים מעניינים ומקצועיים בתחום הסטטיסטיקה, יהיה מעניין…

להתראות שם,
טל.

מבוא לבלוגוספירה של קהילת ה- R העולמית

פורסם בתאריך 30 אוקטובר, 2011
נושאים אינטרנט, העתיד, סטטיסטיקה, סטטיסטיקה ובלוגים | השארת תגובה

בכנס האחרון של useR 2011, אשר התקיים באוניברסיטת ווריק אשר באנגליה, נתתי הרצאה זריזה של כ-5 דקות על הבלוגוספירה של קהילת ה-R העולמית (למי שלא מכיר, הנה הסבר קצר על מה זה R).

לאחרונה פנה אלי קוריאני חביב בשם צ'ל-הי-לי וביקש ממני להקליט את ההרצאה הזו על מנת שהוא יוכל להקרין אותה בכנס R שמתקיים השנה (2011) בדרום קוריאה. החלטתי לעשות זאת, והעליתי את ההרצאה (באורך של כ-7 דקות, באנגלית) לאינטרנט.

ההרצאה עוברת בזריזות על:

תהנו:

(הפוסט הזה גם פורסם באנגלית בבלוג שלי על R)

אינפוגרפיקה על ישראל היום ומחאת האוהלים

פורסם בתאריך 24 יולי, 2011
נושאים אירוע, ויזואליזציה, סטטיסטיקה בתקשורת, סטטיסטיקה תיאורית | 6 תגובות

מחאת האוהלים אשר החלה ברוטשילד מצליחה לסחוף עוד ועוד אזרחים, לצלילי הדממה החברתית שפקדה את מדינתנו בעשורים האחרונים.

ובהזדמנות זו, המחאה גם מצליחה לעורר דיון באופן שבו ערוצי התקשורת המרכזיים מסקרים את המחאה. מה שמוביל אותנו, תאמינו או לא, לסטטיסטיקה.
נתקלתי באינפוגרפיקה המקסימה, אשר משווה את שטח ההתייחסות שכל אחד מהעיתונים המרכזיים (ידיעות, מעריב וישראל-היום) הקדישו למחאת האוהלים בשבוע האחרון.
לחצו על התמונה לגירסה מוגדלת:

מחאת האוהלים - סיקור בתקשורת - אינפוגרפיקה
(קרדיט: לגרפיקאי ליאור צור – misquote. כל הכבוד!)

התמונה מראה את העמוד הראשי של כל אחד משלושת העיתונים לאורך השבוע, וצובעת בורוד את ההופעה של התייחסות למאבק האוהלים. לקינוח, ציטוטים נבחרים מעמוד השער מוצגים לצד התמונה בצהוב.
האם ישראל היום מתייחס פחות למחאת האוהלים מאשר עיתונים אחרים, בהחלט. האם זה מעיד על כך שמדובר ב"ביטאון של ביבי"? בשביל הפרשנות הזו צריך איש תקשורת, לא סטטיסטיקאי… :)

העונת נוספת: למרות נסיונות של גורמים כאלה ואחרים לצבוע את המחאה כקיטוב בין מחנות הימין והשמאל הפוליטיים (כפי שאלו מתבטאים בדעות על הסכסוך הישראלי פלסטיני), הרי שהיטיבו לכתוב לפני שמה שבאמת מדובר פה זו הכלכלה, וספציפית, האם אנו שואפים למדינה קפיטליסטית או מדינה המקדמת אג'נדה כלכלית שהיא יותר סוציאלית.

20 היסודות לאינטראקציה עם היצגי נתונים – סיכום הרצאה

פורסם בתאריך 19 פברואר, 2011
נושאים ויזואליזציה, לסטודנטים, סטטיסטיקה על העולם, סטטיסטיקה תיאורית, סטטיסטיקה תיאורית | 4 תגובות

ביום רביעי האחרון נתתי הרצאה של 50 דקות בסדנת ויזואליזציה מטעם האיגוד הישראלי לסטטיסטיקה על סוגי הפעולות האפשריות ("היסודות") אשר אפשריים כאשר מבצעים אינטראקציה עם היצגים גרפיים של נתונים (או בלעז: Interactive Data Visualization). בפוסט הנוכחי בכוונתי:

  1. להסביר מה זה אינטראקציה עם היצגי נתונים ולתת את המוטיבציה הסטטיסטית עבורה
  2. לפרט ולהסביר את 20 היסודות לאינטראקציה עם היצגי נתונים
  3. לדבר על ההזדמנויות והאתגרים שמציבים בפנינו היכולת לאינטראקציה עם היצגי נתונים

כל הדוגמאות שיוצגו בפוסט זה יושמו באמצעות התוכנה GGobi (תוכנה חופשית/קוד-פתוח). בפוסט הנוכחי אני לא אדון בתוכנות שמיישמות את העקרונות שיתוארו. אני מקווה לעשות זאת באחד הפוסטים העתידיים. לבינתיים, הנה דמו של 5 דקות על השימוש ב- GGobi (אפשר לקרוא את המשך הפוסט גם מבלי לצפות בו) :

brutally short intro to ggobi from Mat Kelcey on Vimeo.

להמשך

למה הסטטיסטיקאי חצה את הכביש? כדי להפגין בשישי הקרוב נגד הומיאופטיה במערכת הבריאות!

פורסם בתאריך 1 פברואר, 2011
נושאים אירוע, אפידמיולוגיה | השארת תגובה

Credit: xkcd (Dilution)

אם יש לכם רגע להתרחק מהאירועים (הכנראה היסטוריים) שמתרחשים ברגעים אלו במצרים, אז אתם מוזמנים להגיע ביום שישי הקרוב (4.2.11) בשעה 10:23 ולהפגין כנגד הומיאופטיה, בניצוחה של קהילת הספקנים בישראל (לחצו כאן לפרטים מלאים על ההפגנה).

שמעתי על ההפגנה דרך הקריאה לדגל בבלוגו של יוסי לוי. אני ממליץ לכם לקרוא את מה שיש ליוסי לומר על הומיאופטיה, אך לשירותכם אתמצת חלק מהעיקר בציטוט הבא:

חולים שפונים לטיפול הומיאופתי דוחים בכך טיפול רפואי מבוסס או מועיל, או אפילו מוותרים עליו. [...]

צריך לעשות משהו, ואני וחבריי לקהילה הספקנית נעשה משהו.

אנו נצא למחות נגד הלגיטימציה שנותנות קופות החולים ורשתות הפארם לטיפולים ההומאופתיים חסרי הערך, ונקרא לציבור הרחב לבחון בשיקול דעת את התועלת והנזק הפוטנציאליים הטמונים בטיפול הומיאופתי לפני ההחלטה לפנות לטיפול כזה.

לא נהיה לבד. יחד עימנו ימחו אלפי אנשים בעשרות מדינות, במסגרת אירוע 10:23, אירוע מחאה גלובלי נגד ההומיאופתיה ונזקיה. אני גאה להיות חלק מהמחאה הזו. אשמח אם תצטרפו אליי,ביום שישי הקרוב, ה-4.2.2011, בשעה 10:23, בכיכר דיזנגוף בתל-אביב.

בשבילי, התגלית שישנם "ספקנים" שכמותי בישראל היא מרתקת, אז בהחלט ייתכן שאקפוץ לבקר שם. מה איתכם?

טענה שגויה ומטעה בווינט – "התאורה בחדר השינה מגבירה הסיכון לסרטן שד ב- 40%"

פורסם בתאריך 18 ינואר, 2011
נושאים אפידמיולוגיה, מחקרים | 7 תגובות

פתחתי במקרה את ווינט ונתקלתי במאמרו של ד"ר איתי גל בשם "התאורה בחדר השינה מגבירה הסיכון לסרטן שד". תקציר המאמר הוא "כדאי להחשיך את חדר השינה: מחקר שנערך באוניברסיטת חיפה מצא שכיחות גבוהה יותר של סרטן שד בקרב נשים שבחדר השינה שלהן דלקו מנורות או חדר מקור אור אחר בשעות הלילה" קישור למאמר

הבעיה בכתבה הזו הוא שהיא טועה בקריאת המאמר ומטעה את הציבור לאמנות שאינן נתמכות במחקר.

הכתבה התפרסמה (כביכול) על סמך המאמר "Does the Modern Urbanized Sleeping Habitat Pose a Breast Cancer Risk?", שהוא מאמר שעושה רושם טוב בהחלט.
בכתבה בווינט נכתב:

"הממצאים הראו כי ככל שהאור בחדר השינה היה חזק יותר, כך הסבירות לחלות בסרטן השד עלה. נשים שהיו חשופות לכמות התאורה הגבוהה ביותר במשך הלילה, בין אם הגיעה ממנורת לילה או תאורת רחוב בשל תריס פתוח, היו בסיכון גבוה ב-40% ללקות בסרטן שד, בהשוואה לנשים שישנו בחושך מוחלט. "

לעומת זאת, המאמר המקורי כתוב במפורש (עמוד 2 במאמר):

no clear association between bedroom-light intensity and BC was found (OR = 1.4, 95% CI = 0.8–2.6).

כלומר, התוצאה בכלל לא יצאה מובהקת. או בתירגום לעברית: יכול להיות באותה המידה שאור בחדר השינה מגן מפני סרטן השד (לא נראה לי, אבל מהתוצאות זו הייתה יכולה להיות מסקנה שקולה)

עוד ביקורת שיש לי (ולמי שלא מבין בנושא, אני ארחיב על כך בפוסטים עתידיים, אבל שלפחות יהיה כתוב לבינתיים) -
אומנם מאוחר יותר, במודל מורכב יותר (של רגרסיה לוגיסטית) מתקבל שבאמת יש השפעה מובהקת (של OR = 1.278 עבור אוכלוסיה יהודית), אבל גם אילו תוצאות המחקר היו נכונות (דהיינו משקפות את המציאות האמיתית מעבר לקבוצת המחקר, שזה תמיד בעיה במקרה של מחקר מקרה-ביקורת רטרוספקטיבי מסוג זה, בגלל הקושי בבחירת קבוצת הביקורת) אבל משם לטעון שהסיכון "גבוה ב- 40%" זה לא נכון בעליל גם לכתוב שהסיכון גבוה ב- 27.8% לא יהיה נכון – כיוון שזו לא סוג של טענה שניתן לבצע בסוג של מחקר כזה. הסיבה לכך היא (ושוב, אני ארחיב על כך באיזה פוסט עתידי) משום שה- OR (מה שנמדד במחקר זה) הוא רק חסם עליון של ה-RR (שהוא המדד שמאפשר לטעון טענה כמו "סיכון גבוה ב- X אחוזים").
(ותודה לד"ר רוני בראונשטיין על הרצאתו פותחת העיניים על הקשרים השונים בין OR ל- RR במהלך הסמסטר הנוכחי…)

ואני מתעלם לצורך העניין שהמחקר הוא מהסוג שבודק קורלציה ולא סיבתיות (וגם על זה לא נרחיב היום).

לפחות מצאתי דוגמא מעניינת לשאול בשיעור חזרה לבחינה של התלמידים שלי ביום רביעי (אני מתרגל תלמידי רפואה את הקורס "ביוסטטיסטיקה", והם בין השאר לומדים את החומר הזה, דוגמא מצויינת לשיעור…)

כיצד להוריד את כל הקבצים מקורס אוניברסיטאי שנמצא ב- high-learn

פורסם בתאריך 29 אוקטובר, 2010
נושאים לסטודנטים, סטטיסטיקה | 2 תגובות

הסמסטר אני מתרגל (בשימחה רבה) את הקורסים "ביוסטטיסטיקה" ו"מבוא לסטטיסטיקה" בבית הספר לרפואה באונ' ת"א ואת חלקם הפניתי לפה – ברוכים הבאים!

למען נוחות הסטודנטים, אני מפנה למדריך שכתבתי על כיצד להוריד את כל הקבצים השייכים לקורס אוניברסיטאי הנמצא תחת מערכת highlearn (מה שמכונה באוניברסיטת תל אביב: virtual tau):

סמסטר פורה ומוצלח.

כנס לסטטיסטיקאים: "נושאים נבחרים בהנדסת שירות" – כניסה חינם בהרשמה מראש

פורסם בתאריך 5 אוקטובר, 2010
נושאים אירוע | השארת תגובה

הכנס הרביעי של הקבוצה הישראלית ליישומי סטטיסטיקה בתעשייה ובעסקים
יתקיים ביום שלישי, 30 בנובמבר 2010,
בבית חיל האויר – רח' ז'בוטינסקי 15, הרצליה.

לחצו כאן כדי להירשם

להל"ן תוכניית הכנס:

להמשך

איזה ביטוח בריאות כדאי לקנות כשטסים לחו"ל ?

פורסם בתאריך 5 יולי, 2010
נושאים אפידמיולוגיה, הסתברות, סטטיסטיקה, סטטיסטיקה על העולם | 7 תגובות

בעוד שבועיים אני טס לארה"ב לכ-5 שבועות.
כחלק מההתארגנות שלי לטיסה, אני צריך לרכוש ביטוח בריאות לחו"ל למקרה ש"יקרה משהו".
אני לא שואל לגבי ביטוח צד ג', ביטוח במקרה של טיול אתגרי, או ביטוח על חפצים.
אני שואל את עצמי, באופן הכי פשוט, על ביטוח למקרה של מחלה או תאונה בטיול פשוט בעיר.
אז איזה ביטוח לרכוש?
חברות האשראי (כידוע) מציאות ביטוח חינם. קופות החולים גם הן מציאות ביטוחים (בתשלום) בהיקפים שונים של כיסוי. וגם סוכנויות הנסיעות מציאות ביטוחים.
אצל מי כדאי לרכוש, ובכמה? כיסוי של חצי מליון שקל או מליון וחצי?

שאלתי את חברי בפייסבוק ואחת התשובות שקיבלתי הייתה:
"בתכלס? מה הסיכוי בעצם שבכלל יקרה לך משהו, שבגללו תצטרך את הביטוח?
הוא לא כזה גבוה כדי שיהיה הבדל משמעותי בין הביטוחים…"

כאן נדלקה לי הנורה שאומרת "שווה לרגע לכתוב פוסט" ומדוע? כיוון שהספרות המחקרית על הפסיכולוגיה של קבלת החלטות היא ענפה. כיוון שהמחקרים מראים שהדרך שבה בני אדם מעריכים הסתברות שמשהו (כמו תאונה) יתרחש, מבוססת על הנחות שלא תמיד מתקיימת (ראו כהנמן וטברסקי שעשו על זה קריירה ואף זכו בנובל).
מה שאני מנסה לומר הוא שזה אחד המקרים בהם אין לי (כאדם שעוסק בסטטיסטיקה – אומנות הסקת המסקנות ממספרים) את הנתונים לדעת מהי ההחלטה שאני צריך לבצע.
מכאן שאני כותב את הפוסט הזה, אם למישהו מכם יש מחשבות או שיקולים מעניינים לחלוק בנושא – אשמח לקרוא אותן בתגובות.

ובשביל שהדיון יהיה יותר פורה, הנה ההרצאה המדהימה של דן גילברט (בטד) על "הציפיות השגויות שלנו"

להמשיך לחפש »