אנשי R (בהווה ובעתיד) – בואו ניפגש

פורסם בתאריך 21 אפריל, 2012
נושאים אינטרנט, אירוע | השארת תגובה

על R ועלי:  אלו מיכם שמכירים אותי אישית יודעים שאני שהאהבות הגדולות שלי בחיים (שאינם בני אדם) זה מידע פתוח, קוד פתוח, אינטרנט וסטטיסטיקה. את כל אלו אני זוכה (בצורה כזו או אחרת) לשלב דרך שפת R. R זו סביבת פיתוח, ושפת תכנות, המיועדת לתכנות סטטיסטי. התוכנה מפותחת ומופצת בקוד פתוח ומאפשרת אינספור שימושים והרחבות.

קהילות R בעולם:  באופן דומה לפרוייקטים אחרים כמו ויקפדיה וורדפרס, הפרוייקט המונומנטלי שהוא R מצליח בזכות אינספור מתכנתים וסטטיסטיקאים אשר משפרים את המערכת עוד ועוד. הקהילה של משתמשי R היא קהילה חובקת עולם עם קבוצות אשר נפגשות בערים גדולות ברחבי העולם. קבוצות מקומיות של משתמשי R מכונות גם RUG (R user group). יש רשימה של קבוצות כאלה כאן, ויש גם בלוג עם הרצאות מוקלטות ממפגשי R ברחבי העולם (כאן).

קהילת R בישראל?  ומה לגבי ישראל? בישראל יש קבוצת דיון של משתמשי R בגוגל גרופס אשר הוקמה על ידי יונתן רוזנבלט (תודה יונתן!). וגם היו שני סדנאות על R במהלך שנת 2012, אשר אורגנו על ידי איגוד הסטטיסטיקאים הישראלים (קישור). אבל זה עדיין לא קהילה.

בואו ניפגש: כדי שנהפך להיות קהילת משתמשי R בישראל, אנחנו צריכים להיפגש ולהכיר. רצוי באופן קבוע יחסית (פעם בחודש עד 4 חודשים?). מה שמוביל אותי למטרת הפוסט. אם אתם מעוניינים להיפגש עם אנשי R, אנא השאירו את פרטיכם בטופס הזה (הטופס ממוקם באתר חדש שהוקם לצורך ריכוז מידע עבור הקהילה שתתהווה). אחרי שהטופס יתחיל להתמלא, אני אוכל לקבל מושג על מי עוד "נמצא שם". ולפי זה אפשר יהיה להתחיל לתכנן מפגשים (בהתאם לרקע של האנשים שירשמו), ולגלגל את הכדור הלאה…

רצינות הבלוגר: רק כדי להבהיר שאני רציני לגבי הפוסט הזה – 1) הייתי בין המארגנים של שני כנסי קוד פתוח (וורדקמפ 2007 וורדקמפ 2008). ביוני הקרוב אני מתכנן לטוס לארה"ב לכנס useR!2012 הבינלאומי, אני מניח שבאחד ממפגשי ה- R הקרובים אני אתן הרצאה על דברים מעניינים שאגלה שם. וגם תודה לשלמה יונה (מאאוטבריין) אשר דחף אותי לקדם את הנושא, ומסייע מאד בצד הלוגיסטי והרוחני.

 

כך זינק המס שאנחנו משלמים על הדלק?!

פורסם בתאריך 31 מרץ, 2012
נושאים דיסאינפוגרפיקה, ויזואליזציה, סטטיסטיקה בתקשורת, סטטיסטיקה על העולם | השארת תגובה

באולפן שישי מהימים האחרונים (30.03.2012), התנוססה לה כתבה תחת הכותרת "כך זינק המס שאנחנו משלמים על הדלק". בכתבה מופיע תרשים מרשים המראה את הטיפוס הבלתי נלאה של המס שאנחנו משלמים על הדלק בעשור האחרון. היות והרבה חברים בפייסבוק החליטו להפיץ את התרשים הזה, החלטתי להסתכל עליו קצת יותר, הנה הוא:

בתרשים הזה יש שני כשלים משמעותיים: הראשון הוא מבחינה עיצובית (תרשים עמודות תלת מימדי, במקום דו מימדי) והשני הוא מבחינת סוג הנתונים שהוצגו (נתונים גולמיים ללא תיקנון). וכעת הסבר מורחב:

להמשך

תרשים של מחירי דירות בשנתיים האחרונות – אני לא רואה בשורות גדולות – ואתם?

פורסם בתאריך 28 מרץ, 2012
נושאים ויזואליזציה, סטטיסטיקה בתקשורת, סטטיסטיקה על העולם | השארת תגובה

מדור הכלכלה של ווינט פירסם לפני כמה שעות את הנתונים שפרסם היום משרד הבינוי והשיכון.

המממ, כשאני אומר "פירסם", כוונתי היא שהעיתון נתן צילום מסך של טבלת נתונים, ביחד עם תיאור של היחס בין מחירי הדירות בתאריכים שונים (דהיינו, הירידה באחוזים).
אז מה הפריע לי? שלהסתכל על (צילום מסך) של טבלת נתונים גדולה לא ממש עוזר לי להבין מה קורה בשוק הדיור (ותיאור האחוזים של הכתבה גם כן לא עוזר).

הכנת הנתונים

רציתי ליצור תרשים של הנתונים. בשלב הראשון, הורדתי את התמונה של טבלת הנתונים מהאתר של ווינט (קישור) . בשלב השני נגשתי לגוגל וחיפשתי "OCR jpg to doc", כדי למצוא אתר שיאפשר לי להמיר את התמונה למספרים (כדי שאני לא אצטרך להתאמץ יותר מידי בהקלדה). הנה קישור לאתר שהצליח לא רע להמיר את התמונה למסמך וורד (קישור). את הטבלה שבקובץ וורד העברתי לאקסל, ותיקנתי כל מיני שגיאות (פסיקים, נקודות, ואפסים חסרים).
אתם מוזמנים להוריד את הקובץ שהתקבל ולחשוב על דברים יצירתיים אחרים לעשות איתו (קישור לקובץ הנתונים).

התרשים של מחירי הדירות בשנתיים האחרונות

מה שמצער אותי זה שאני לא מבין את המשמעות המדוייקת של המחיר. אני לא יודע אם זה מחיר ממוצע לדירה בגודל מסויים. באיזה איזורים בארץ, וכן הלאה. המשמעות המדוייקת של הנתון לוטה בערפל, לא מתואר בכתבה של ווינט, ודורש חפירה באתר של משרד השיכוי והבינוי (וזה בהנחה שהם רשמו את ההסבר שם איפשהו).
אבל בואו נניח שהנתון הזה בכל זאת מייצג משהו על מה שקורה בארץ. הנה התרשים:

הקו הכחול הוא של מחירי דירות יד שניה, בעוד שהקו האדום הוא של מחירי דירות חדשות. הקו השחור שהוספתי על גבי הנתונים הוא החלקה על פני 4 תקופות (אפשר לחשוב על זה כעל קו המגמה "הממוצע" של מחירי הדירות).

מחשבות על הנתונים (ומחאת האוהלים)

כמה תופעות מעניינות צצות כשמסתכלים על הגרף:

  1. מחירי הדירות הם נתון "רועש" בין חודש לחודש (שזה די מרשים לראות כשחושבים על זה שמדובר בממוצע של מחירים). אחת המסקנות שמתקבלות מזה היא שלהשוות חודש ספציפי עם חודש ספציפי בשנה שלפני כן, זה לא בהכרח ההשוואה הכי טובה. מדוע? כי ייתכן שבמקרה (או בכוונה שאיננה "נקיית כפיים") נבחר להשוות שני חודשים עבורם היה הפרש גדול. וייתכן וההפרש הזה הוא מיקרי, ויהיה מתון יותר בחודש שלאחר מכן. זה אומר שלשם השוואות בין תקופות, ייתכן ועדיף להסתכל על נתונים שעברו "החלקה" (דהיינו, "מיצוע", מה שמופיע בתרשיימים למעלה בתור הקו השחור).
    זה גם אומר שיכול להיות חודש שבו פתאום יכריזו ש"מחירי הדירות מתרסקים" (בעיקר כאשר מדובר במחירי הדירות החדשות), אבל שחודש לאחר מכן המחירים שלהם יתאזנו חזרה למחירים הקודמים.
  2. נראה שיש יותר תנודתיות במחירי הדירות החדשות לעומת מחירי הדירות יד-שניה (זה רק מהסתכלות בעין, לא בהכרח מדובר בהבדל מובהק סטטיסטית). הסבר אחד על כך נתן אוהד דנוס, יו"ר לשכת שמאי המקרקעין, אשר אמר בעקבות פרסום הנתונים כי "הודעת משרד השיכון תואמת אחת לאחת את תחזיות לשכת השמאים בדבר ירידת מחירים זמנית, בשיעורים מינוריים, כשהקבלנים מוכנים להתפשר מעט יותר משוק דירות היד השנייה, וזאת רק הממונפים שבהם".
  3. מאז תחילת מחאת האוהלים (דהיינו, יולי 2011), נראה שהייתה "ירידה" במחירי הדירות החדשות והיד-שניה (בהשוואה לשיא). אם כי הירידה היא על פני המגמה, יותר משמעותית בדירות החדשות – ובכל מקרה די זעומה ביחס לשונות הכללית של הנתונים. האם הנתונים האלה מלמדים אותנו שמחאת האוהלים השפיע על שוק הדיור והורידה את מחיריו? זו שאלה מצויינת, אינני יודע את התשובה. ייתכן ומחאת האוהלים הגיע באותו הזמן שהתחילה להתהפך מגמת העלייה של מחירי הדיור.

בשורה התחתונה, אני לא רואה בשורה גדולה בנתונים האלה, רק קצת תובנות שלא ברור לי מה אפשר לעשות איתן.

אם יש לכם מחשבות על מה לעשות עם הנתונים, או איך לפרש אותם – אשמח לקרוא עליהם בתגובות, אני אוהב ללמוד דברים חדשים…

מחירי החשמל עולים, אבל לא ככה – ביקורת על גרפיקה מהעיתון

פורסם בתאריך 23 מרץ, 2012
נושאים ויזואליזציה, סטטיסטיקה בתקשורת | השארת תגובה

דף הפייסבוק של ידיעות אחרונותפירסם הודעה עם הגרף שמתחת, ומעליו הטקסט הבא:

התעצבנתם מחשבון החשמל המנופח? כשתקבלו את החשבון הבא תתעצבנו עוד יותר. כתבנו עמיר בן-דוד מדווח כי תעריפי החשמל יעלו בשבוע הבא בעוד 8.9%, ובכך ישלימו זינוק של 24% בתוך שנה. תראו כמה שילמתם אז – וכמה אתם עומדים לשלם עכשיו

אין ספק שכעס זה דבר שמושך תשומת לב של קוראים, ועלייה במחירי החשמל בפירוש עונה על הקריטריון הזה. אבל רגע, האם אתם שמים לב לאיזושהי בעיה בגרף שלמעלה? להמשך

רגישות, סגוליות וערכי ניבוי – למה כדאי שכולכם תדעו את זה (וגם איך מחשבים)

פורסם בתאריך 30 נובמבר, 2011
נושאים אפידמיולוגיה, לסטודנטים, סטטיסטיקה, סטטיסטיקה תיאורית | 7 תגובות

למה כדאי שכולכם תרפרפו על המאמר שכתבתי? (כלומר – למה כדאי שתפיצו את המאמר הזה לחבריכם)
כי כל פעם שאתם ניגשים לבדיקה רפואית שמחליטה האם אתם "בריאים" או "חולים" – כדאי שתדעו לשאול מהו הערך המנבא החיובי ומהו הערך המנבא השלילי. מדוע? כדי שתבינו, בהינתן שהובחנתם כבריאים/חולים – מה הסיכוי שההבחנה שקיבלתם באמת מתארת את המציאות.
ביום שבו תצטרכו להבין את זה (וזה יגיע), כדאי שתזכרו את המאמר הזה – ותקראו אותו טוב (בניגוד לריפרוף הראשוני שבו אתם בטח תקראו אותו כעת).

בפוסט שלפניכם אני מתחיל מלהסביר (לאט לאט) מה זה "רגישות", "סגוליות" ואז עובר להסביר מה זה "ערך מנבא חיובי ושלילי". אני מראה כיצד השתמשתי בכל המונחים הללו כדי לחלץ את התשובה לשאלה: "בהינתן שאישה עברה ממוגרפיה והובחנה כחולת סרטן השד – מהי ההסתברות שבאמת יש לה סרטן השד?" (התשובה מופיעה בסוף הפוסט)

ונתחיל….

להמשך

הזמנה לערב הרצאות (כולל אחת שלי) לכבוד יום הסטטיסטיקה הבינלאומי

פורסם בתאריך 3 נובמבר, 2011
נושאים אירוע | השארת תגובה

ב-14.11.2011 יתקיים ערב בן 5 הרצאות קצרות שיסקרו את נושא הסטטיסטיקה מכיוונים שונים לכבוד יום הסטטיסטיקה הבינלאומי (שכבר התקיים ב-20.10.2011).

התכנסות בשעה 20:00, ההרצאות יחלו ב-20:30. האירוע יערך בפאב גורדו (נראה שהכתובת היא הירקון 121, חוף גורדון, טיילת תל אביב)

ניתן להרשם ולהפיץ לחבריכם או שונאיכם באמצעות האירוע בפייסבוק.

10 ש"ח דמי השתתפות לכיסוי הוצאות לוגיסטיות.

אני אתן בערב את ההרצאה "כיצד חוקרים עכברים שחוקרים את סביבתם", הנה התקציר:

יום אחד עכבר קם בבוקר, מחליט שהוא סקרן, ומתחיל ללכת. לאן הוא הולך? מתי הוא חוזר? כמה הוא מטייל? האם הוא מתרגש? ולמה זה בכלל מעניין אותנו (כחוקרים) לדעת?
טל גלילי, הוא דוקטורנט לסטטיסטיקה באוניברסיטת תל אביב, אוהב קוד פתוח ומידע חופשי, ובלוגר במדריך לטרמפיסט בסטטיסטיקה.

כנסו לאתר הספקנים בפאב, בשביל פירוט של שאר ההרצאות שיתקיימו בערב. שאר ההרצאות יתקיימו על ידי אנשים מעניינים ומקצועיים בתחום הסטטיסטיקה, יהיה מעניין…

להתראות שם,
טל.

מבוא לבלוגוספירה של קהילת ה- R העולמית

פורסם בתאריך 30 אוקטובר, 2011
נושאים אינטרנט, העתיד, סטטיסטיקה, סטטיסטיקה ובלוגים | השארת תגובה

בכנס האחרון של useR 2011, אשר התקיים באוניברסיטת ווריק אשר באנגליה, נתתי הרצאה זריזה של כ-5 דקות על הבלוגוספירה של קהילת ה-R העולמית (למי שלא מכיר, הנה הסבר קצר על מה זה R).

לאחרונה פנה אלי קוריאני חביב בשם צ'ל-הי-לי וביקש ממני להקליט את ההרצאה הזו על מנת שהוא יוכל להקרין אותה בכנס R שמתקיים השנה (2011) בדרום קוריאה. החלטתי לעשות זאת, והעליתי את ההרצאה (באורך של כ-7 דקות, באנגלית) לאינטרנט.

ההרצאה עוברת בזריזות על:

תהנו:

(הפוסט הזה גם פורסם באנגלית בבלוג שלי על R)

אינפוגרפיקה על ישראל היום ומחאת האוהלים

פורסם בתאריך 24 יולי, 2011
נושאים אירוע, ויזואליזציה, סטטיסטיקה בתקשורת, סטטיסטיקה תיאורית | 6 תגובות

מחאת האוהלים אשר החלה ברוטשילד מצליחה לסחוף עוד ועוד אזרחים, לצלילי הדממה החברתית שפקדה את מדינתנו בעשורים האחרונים.

ובהזדמנות זו, המחאה גם מצליחה לעורר דיון באופן שבו ערוצי התקשורת המרכזיים מסקרים את המחאה. מה שמוביל אותנו, תאמינו או לא, לסטטיסטיקה.
נתקלתי באינפוגרפיקה המקסימה, אשר משווה את שטח ההתייחסות שכל אחד מהעיתונים המרכזיים (ידיעות, מעריב וישראל-היום) הקדישו למחאת האוהלים בשבוע האחרון.
לחצו על התמונה לגירסה מוגדלת:

מחאת האוהלים - סיקור בתקשורת - אינפוגרפיקה
(קרדיט: לגרפיקאי ליאור צור – misquote. כל הכבוד!)

התמונה מראה את העמוד הראשי של כל אחד משלושת העיתונים לאורך השבוע, וצובעת בורוד את ההופעה של התייחסות למאבק האוהלים. לקינוח, ציטוטים נבחרים מעמוד השער מוצגים לצד התמונה בצהוב.
האם ישראל היום מתייחס פחות למחאת האוהלים מאשר עיתונים אחרים, בהחלט. האם זה מעיד על כך שמדובר ב"ביטאון של ביבי"? בשביל הפרשנות הזו צריך איש תקשורת, לא סטטיסטיקאי… :)

העונת נוספת: למרות נסיונות של גורמים כאלה ואחרים לצבוע את המחאה כקיטוב בין מחנות הימין והשמאל הפוליטיים (כפי שאלו מתבטאים בדעות על הסכסוך הישראלי פלסטיני), הרי שהיטיבו לכתוב לפני שמה שבאמת מדובר פה זו הכלכלה, וספציפית, האם אנו שואפים למדינה קפיטליסטית או מדינה המקדמת אג'נדה כלכלית שהיא יותר סוציאלית.

20 היסודות לאינטראקציה עם היצגי נתונים – סיכום הרצאה

פורסם בתאריך 19 פברואר, 2011
נושאים ויזואליזציה, לסטודנטים, סטטיסטיקה על העולם, סטטיסטיקה תיאורית, סטטיסטיקה תיאורית | 4 תגובות

ביום רביעי האחרון נתתי הרצאה של 50 דקות בסדנת ויזואליזציה מטעם האיגוד הישראלי לסטטיסטיקה על סוגי הפעולות האפשריות ("היסודות") אשר אפשריים כאשר מבצעים אינטראקציה עם היצגים גרפיים של נתונים (או בלעז: Interactive Data Visualization). בפוסט הנוכחי בכוונתי:

  1. להסביר מה זה אינטראקציה עם היצגי נתונים ולתת את המוטיבציה הסטטיסטית עבורה
  2. לפרט ולהסביר את 20 היסודות לאינטראקציה עם היצגי נתונים
  3. לדבר על ההזדמנויות והאתגרים שמציבים בפנינו היכולת לאינטראקציה עם היצגי נתונים

כל הדוגמאות שיוצגו בפוסט זה יושמו באמצעות התוכנה GGobi (תוכנה חופשית/קוד-פתוח). בפוסט הנוכחי אני לא אדון בתוכנות שמיישמות את העקרונות שיתוארו. אני מקווה לעשות זאת באחד הפוסטים העתידיים. לבינתיים, הנה דמו של 5 דקות על השימוש ב- GGobi (אפשר לקרוא את המשך הפוסט גם מבלי לצפות בו) :

brutally short intro to ggobi from Mat Kelcey on Vimeo.

להמשך

למה הסטטיסטיקאי חצה את הכביש? כדי להפגין בשישי הקרוב נגד הומיאופטיה במערכת הבריאות!

פורסם בתאריך 1 פברואר, 2011
נושאים אירוע, אפידמיולוגיה | השארת תגובה

Credit: xkcd (Dilution)

אם יש לכם רגע להתרחק מהאירועים (הכנראה היסטוריים) שמתרחשים ברגעים אלו במצרים, אז אתם מוזמנים להגיע ביום שישי הקרוב (4.2.11) בשעה 10:23 ולהפגין כנגד הומיאופטיה, בניצוחה של קהילת הספקנים בישראל (לחצו כאן לפרטים מלאים על ההפגנה).

שמעתי על ההפגנה דרך הקריאה לדגל בבלוגו של יוסי לוי. אני ממליץ לכם לקרוא את מה שיש ליוסי לומר על הומיאופטיה, אך לשירותכם אתמצת חלק מהעיקר בציטוט הבא:

חולים שפונים לטיפול הומיאופתי דוחים בכך טיפול רפואי מבוסס או מועיל, או אפילו מוותרים עליו. [...]

צריך לעשות משהו, ואני וחבריי לקהילה הספקנית נעשה משהו.

אנו נצא למחות נגד הלגיטימציה שנותנות קופות החולים ורשתות הפארם לטיפולים ההומאופתיים חסרי הערך, ונקרא לציבור הרחב לבחון בשיקול דעת את התועלת והנזק הפוטנציאליים הטמונים בטיפול הומיאופתי לפני ההחלטה לפנות לטיפול כזה.

לא נהיה לבד. יחד עימנו ימחו אלפי אנשים בעשרות מדינות, במסגרת אירוע 10:23, אירוע מחאה גלובלי נגד ההומיאופתיה ונזקיה. אני גאה להיות חלק מהמחאה הזו. אשמח אם תצטרפו אליי,ביום שישי הקרוב, ה-4.2.2011, בשעה 10:23, בכיכר דיזנגוף בתל-אביב.

בשבילי, התגלית שישנם "ספקנים" שכמותי בישראל היא מרתקת, אז בהחלט ייתכן שאקפוץ לבקר שם. מה איתכם?

להמשיך לחפש »