ארכיון חודשי: אוגוסט 2009

קבוצת דיון לישראלים המשתמשים ב-R

עמיתי למקצוע, יונתן רוזנבלט, הקים באחרונה קבוצת דיון בגוגל עבור ישראלים המשתמשים בתוכנה הסטטיסטית, קוד פתוח, R (הנה הסבר מרחב על What is R). הקישור לקבוצה הוא:

http://groups.google.com/group/israel-r-user-group

להתראות שם 🙂

מאגר נתונים כולל על האינטרנט בישראל – יוזמה חדשה ומרגשת

איגוד האינטרנט הישראלי רוצה להקים ולנהל מאגר נתונים על האינטרנט בישראל. אלו הם חדשות מרגשות, לא רק עבור סטטיסטיקאים אלא לכל מי שהוא "אוהב אינטרנט".

מאגר מידע על "האינטרנט בישראל" (שמיד נפרוט מה דבר כזה יכול להכיל), הוא מה שדרוש לנו כדי לדעת מה מצבנו וכדי לקבל פעולות לאן להמשיך הלאה.

כשמאגר כזה יוקם – יהיה מעניין מאד לדעת כמה אנשים משתמשים באינטרנט, מהי רמת הידע שלהם, מהם קצבי התעבורה, מהם הרגלי הצריכה של אנשים באינטרנט, באיזה מגמות ניתן להבחין ועוד ועוד. מידע כזה יאפשר לממשלה, לגופים עיסקיים ולאנשים בעלי יוזמות למען הקהילה – לדעת טוב יותר איפה להשקיע משאבים וכיצד להתקדם למקום טוב יותר.

כבר קיום הרבה גופים אוספים מידע מסוג זה, אך המידע לא מאורגן במקום מאוחד שיאפשר לנו להגיע אליו ולחקור אותו כדי לגלות תובנות.

לפרטים נוספים, אני מעתיק בזאת את הטקסט שהופץ על ידי איגוד האינטרנט הישראלי:

* * * * * *

איגוד האינטרנט הישראלי: בקרוב – מאגר נתונים כולל על האינטרנט בישראל

איגוד האינטרנט הישראלי מתחיל בתהליך הקמת מאגר נתונים על האינטרנט בישראל. המאגר יכיל נתונים גולמיים שיתעדכנו אחת לתקופה, אודות מגוון מימדים הקשורים לאינטרנט. בין הנתונים הצפויים להופיע במאגר: נושאים טכניים, דוגמת תשתיות פיזיות ותקשורת – רוחבי פס, נפחי תעבורה, שיטות חיבור בבתי אב, עסקים, סקטורים שונים, נתונים הכרוכים בממשל מקוון – שימוש באינטרנט לצורך מתן שירות לאזרח, מעורבות בתהליך קבלת החלטות (Netizenship) והחברה האזרחית – השימוש באינטרנט בחברה האזרחית, התנדבות ברשת, תוכן קהילתי והשימוש באינטרנט בקהילות וירטואליות.

המאגר יכלול גם נתונים בעלי גוון חברתי ועסקי, דוגמת נתוני הפער הדיגיטאלי ואף שימוש באינטרנט בעסקים – היקפי מסחר אלקטרוני ושיווק ופרסום באמצעות האינטרנט. נתונים נוספים שיכיל המאגר הנם כאלו שיתקבלו ממדידות ישירות שמבצע האיגוד, כגון מידע ציבורי על תעבורת ה-IIX, מספרי שמות מתחם תחת ה ccTLD .il , וסקרים אחרים שהאיגוד יבצע במישרין או באמצעות קבלני משנה.

עם השלמתו של המהלך יעמיד האיגוד את המאגר לרשות חוקרי אקדמיה, אנשי עסקים, מקבלי החלטות וכלל הציבור.

כצעד ראשון להקמת המאגר, יצא האיגוד בבקשה לקבלת מידע בנושא, מתוך מטרה לקרוא לבעלי עניין, המחזיקים בנתונים בנושא, מובילי דעת פוטנציאלים בתחום הערכת ומדידת האינטרנט ושותפים נוספים לקחת חלק בפרויקט.

לדברי רימון לוי, נשיא האיגוד, "השימוש הנרחב באינטרנט החל בשני העשורים האחרונים בלבד, ולכן תחום מדידת השימוש באינטרנט עוד בחיתוליו. המאגר יכלול נתונים מסקרים בינלאומיים בהם נכללה גם ישראל וכן סקרים שיבצע האיגוד או השותפים; אנו צופים כי הנתונים האיכותיים ביותר יגיעו מגופים בארץ אשר אוספים אותם כחלק מפעילותם השוטפת".

"השלב הקריטי בהקמת מאגר הנתונים הוא יצירת שותפות בין גופים בעלי נתונים ויכולת מדידה, אומר ד"ר ישע סיון, חבר הנהלת האיגוד ויו"ר הוועדה הטכנולוגית האחראית על קידום הפרויקט. "כגוף ניטראלי, יש ביכולתו של האיגוד להוביל את הקמת מאגר הנתונים תוך יצירת שיתוף פעולה בין השחקנים בתחום באופן שיתרום להם ולציבור הרחב. המאגר יאפשר לקבל החלטות על בסיס מידע מהימן ".

למידע נוסף ולהרחבה:
www.isoc.org.il/sts

איגוד האינטרנט הישראלי
השלוחה הישראלית של איגוד האינטרנט הבינלאומי. האיגוד הינו גוף בלתי תלוי הפועל ללא מטרת רווח למען התפתחות והטמעת את פני האינטרנט בארץ ומייצג את ישראל במסגרות בינלאומיות בעלות חשיבות רבה לקביעת עתיד האינטרנט. האיגוד מעורב בנושאים רבים הקשורים לאינטרנט, דוגמת רישום שמות מתחם בסיומת ישראלית, קידום מערכות פתוחות ופרויקטי קוד פתוח, עידוד ותמיכה בקבוצות משימה בנושאי נגישות לבעלי מוגבלויות, הגנה על ילדים מתכנים פוגעניים ברשת, ואינטרנט לגיל השלישי. כמו כן מפעיל האיגוד את משרד ה-W3C הישראלי. נשיא האיגוד: רימון לוי. אתר אינטרנט: http://www.isoc.org.il

עידכון: בינתיים האתר עלה לאוויר כאן.

יום ממוצע בחייו של אמריקאי ב- 2008 (ויזואליזציה מהממת)

"סקר העברת הזמן של האמריקאים" ביקש מ-1000 אמריקאים (מעל גיל 15) לשחזר כל דקה מיום בחייהם, במהלך 2008. אם זה יפה בעינכם, רוצו לאתר של הניו-יורק טיימז לגירסה האינטראקטיבית של הגרף המהמם הזה.

הסבר קצרצרון: הגרף המוצג הוא גרף שכבות. ציר ה- X הוא זמן, וציר ה- Y הוא אחוז האנשים ש…עשו משהו. בכל נקודת זמן, העובי היחסי של כל פרוסה אומר מהו אחוז האנשים שעשו את אותו המשהו. הגרף מאפשר לזהות מגמות גדולות כמו למשל את שעות האוכל אשר נוגסות בפעילות העבודה. גם מעניין לראות כיצד אנשים שעוסקים בפעילויות בית, או בחופשה לא יאכלו בשעות קבועות כמו אלו שעוסקים בעבודה (נישמע לי מוכר).
הגירסה האינטראקטיבית של הגרף באתר של הניו-יורק טיימז מאפשרת ללחוץ על כל פרוסה ואז לראות את ההתפלגות שלה לאורך היממה. תהנו 🙂

day2day

תודה לאלעד על הלינק!

העלייה ה"מרשימה" (אך לא מובהקת סטטיסטית!) בקוראי מעריב

פוסט משותף עם עידו קינן.

בסופ"ש האחרון פנה אלי עידו וביקש ממני התייעצות קטנה. הוא נתקל בידיעה בעיתון מעריב, המדווחת על "עלייה מרשימה בחשיפה לעיתון" בהתאם לסקר TGI.
עליה מרשימה בחשיפה לעיתון מעריב

היות ועמדו לרשותו קובץ הנתונים של סקר TGI (להנתאכם, הנה הוא: TGI-media ), הוא התייעץ איתי האם המסקנה של עיתונאי מעריב תקפה או לא. מהסתכלות זריזה בקובץ, ראיתי שהתשובה היא חד משמעית – לא.

הנתונים בקובץ מספרים לנו שבמדד החצי שנתי, יש ירידה הדרגתית מ-16.6% (חציון 2 2007) ל-15.1% (ח1 2008) ל-13.8% (ח2 2008), ואז עליה קלה ל-14.4% (ח1 – 1 200). גם העליה הקלה בחציון האחרון נמצאת בטווח הטעות של הנתונים, היות שרווחי הסמך הם של אחוז אחד לכל אחד מהמספרים, בעוד שהעלייה הייתה של פחות מאחוז.

הנתונים שבעיתון מציגים את השינוי באחוזים, אבל לא את מידת הוודאות שבהבדלים (כלומר, את מידת הוודאות שלנו שאם נקח מדגם אחר נקבל תוצאות דומות). הגרף שלפניכם (אשר נוצר בעזרת התוכנה הסטטיסטית R), מציג את השינוי שנעשה באחוזי הקוראים אך משלב בתוכו את רווחי הסמך:

the big non rise

הגרף מדגים היטב שההבדל באחוזים איננו מובהק סטטיסטית, היות ורווחי הסמך "עולים" האחד על גבי השני. ואינם ניפרדים ממש בגובהם.

כדי לעשות מבחן סטטיסטי תקף, צריך להשתמש בנתונים הגולמיים ולבצע עליהם מבחן סטטיסטי מתאים (אפשר מבחן להפרש פרופורציות או מבחן חי בריבוע, הם שקולים מבחינת הערך P/רמת-המובהקות שהם יפיקו). הנה הטבלה של הנתונים (לקוחה מהנתונים של הסקר):

קוראים מעריבלא קוראים מעריב
יולי-דצמבר 2008 690.9664316.034
ינואר-יוני 2009721.0084285.992

הפעלה של מבחן חי בריבוע על הנתונים מביא לערך P של 0.40.
או במילים אחרות – אין שינוי מובהק באחוז הקוראים בין התקופה האחת לאחרת.

לסיכום: מעבר לבעיות המובנות בסקר TGI (כפי שעידו מציין בפוסט שלו), הבעיה אותה חשפנו כאן היא דיווח על מספר (אומדן לאחוז החשיפה לעיתון), מבלי התחשבות במידת הרעש של הנתונים (רווחי הסמך של האומד). חוסר התחשבות כזו מאפשרת להגיע למסקנות שגויות ביותר, ועל זה קיבלנו דיווח ממעריב. מזכיר קצת את הדיווח הלקוי שהתקשורת סיפקה לסקרי הבחירות האחרונות.

ועל זה כבר אמר מרק טווין הרברט וולס (H. G. Wells) – "החשיבה הסטטיסטית בעידן המודרנית היא מיומנות הכרחית לאזרחות טובה"