ארכיון תגיות: סקר

מה סטודנטים באונ' ת"א רוצים בבחורה?

יצאנו לבדוק מה גברים רוצים וגילינו שאנחנו לא יודעות כלום. אמרתם שנשים מסובכות?

בינואר 2014, התלמידות מור גבע, טלי אורנבך, אורטל שנפס, החליטו לבדוק במסגרת פרוייקט המחקר שלהן לקורס מבוא לסטטיסטיקה למדעי המחשב, מה סטודנטים זכרים באוניברסיטת תל אביב מחפשים בבחורות. הנתונים שנאספו הם מעניינים ביותר והניתוח הסטטיסטי נעשה עם מחשבה, תחת הסייג שהוא ברמה של קורס מבוא, עם כל ההשלכות מכך – לא מדובר במחקר מדעי שעבר ביקורת עמיתים, אז כל מסקנה שמופיע בפוסט זה יש לקחת בערבון מוגבל ולהפעיל חשיבה ספקנית (אף יותר מהרגיל!).
לצורך ההתאמה למדיום, הרשיתי לעצמי לקצץ חלקים מסויימים מהעבודה (אך לא ביצעתי/שיפרתי את המחקר עצמו. כך שאם יש שאלות – מקומן הוא בתגובות). ניתן להוריד את העבודה המלאה מקישור זה.
אם יש לכם שאלות של סקרנות, הצעות לשיפור, ו
מחמאות לתלמידות (ורצוי שיהיו!) אתם מוזמנים לכתוב אותם בתגובות.
וללא מילים נוספות – אני גאה להציג בפניכם את תמצית תוצאות המחקר:

מה לדעתכן מחפש הסטודנט הזה בבחורות?

מה לדעתכן מחפש הסטודנט הזה בבחורות?

תמצית המחקר

מחקר זה נכתב כתגובה למחקר אחר שנעשה בפקולטה לפני מספר שנים, המבקש להבין את רצונותיהן של סטודנטיות באונ' ת"א בבן-זוג. במחקרנו ניסינו לאמוד את רצונותיהם של סטודנטים גברים מאונ' ת"א – הן במבט כולל על האלמנטים החשובים לסטודנט במראה הבחורה, והן במבט על רצונות הסטודנט כתלות בפרמטרים שונים אודותיו, כמו גילו ותחום לימודיו. המחקר מבוסס על סקר שערכנו באונ', שכלל 238 נסקרים. מסקנותינו העיקריות:

  • מחצית מהגברים מעניקים חשיבות לרמת הניסיון המיני של הבחורה, ומגבילים אותה ברמה מסויימת.
  • אין קורלציה בין סוג הקשר שמחפש הסטודנט (ארוך טווח או מזדמן), לבין היותו "חסוד" או לא (מבחינת החשיבות שמעניק לרמת הניסיון המיני של הבחורה).
  • החזה והישבן חשובים במידה שווה.
  • הסטנדרטים למראה לא משתנים עם הגיל, אך משתנים מפקולטה לפקולטה. [הערת המתרגל: מסקנה זו היא בערבון מוגבל מאד]   

להמשיך לקרוא

הבחירות לכנסת ה- 19 (בשנת 2013) – איפה הסקרים הצליחו ואיפה הם כשלו?

 seker_vs_reality_elections2013

הבחירות הסתיימו, אני הצבעתי, ועכשיו כשהאבק מתחיל לשקוע אנו יכולים להתרווח ולבדוק את הקשר בין תחזיות הסקרים לתוצאות בשטח. יש דרכים רבות לדון בשאלות הללו, מה שבחרתי לעשות היום זה לקחת את הסקר של פרופסור קמיל פוקס (דיאלוג), שהתפרסם חמישה ימים לפני הבחירות לכנסת ה- 19 (אשר התקיימו ב- 22.01.2013), בעיתון הארץ (קישור לתוצאות הסקר) ולענות על כמה שאלות:

  1. עד כמה קרובים היו תחזיות הסקר לתוצאות האמת?
  2. האם 19 המנדטים שקיבלה "יש עתיד" היו בתוך טווח הטעות הסבירה או לא?
  3. האם לארץ חדשה היה סיכוי לעבור את אחוז החסימה?
  4. האם יש עדות מובהקת לכך שהסקרים של הארץ מוטים לכיוון השמאל-מרכז?

הפוסט הזה יכלול את עיקרי הדברים (אפשר לקפוץ לסוף הפוסט לריכוז המסקנות), ואם תרצו לראות את החישובים המדוייקים, אתם מוזמנים להוריד את המסמך מהקישור שכאן.

להמשיך לקרוא

ענת קם – הקשר בין עמדות פוליטיות לדעות על הפרשה

(אם הגעתם בשביל התוצאות, הם מופיעות בסוף הפוסט). כנסו לכאן אם ברצונכם למלא את השאלון ולהופיע שוב בניתוח המעודכן

רקע – ענת קם

חברי המלומד (והמתפלסף) טל ירון לקח על עצמו באחרונה לכתוב באריכות על ענת קם.
למי שלא הספיק להתעדכן, זה בסדר – אתם לא אמורים לדעת על זה.
ממה שהתפרסם בעיתונות ה"זרה", בארץ,  בטוויטר, בויקיפדיה (כלומר, הערך על ענת קם נמחק, אבל הדיון על המחיקה נשאר) ובבלוגוספירה בכלל (לדוגמא: פה, כאן, שם, וגם ב |||||, וגם זה וכמובן הוא וגם זה, ובטח שכחתי כמה…), נראה שהסיפור הוא ש (ואני מצוטט את טל ירון):
בהמלצת חברים – הסרתי את הטקסט עד להסרת צו איסור הפירסום

ענת קם, שהיתה חיילת בפיקוד מרכז, העבירה לאורי בלאו, כתב הארץ כאלף מכתבים, המסווגים סודי-ביותר. מתוך אלף המכתבים, הצליח הכתב אורי בלאו להשיג אישור מהצנזור לפרסם שני מכתבים. המכתבים מכילים פקודות שנתן יאיר נווה, אלוף פיקוד מרכז, לחיסול ממוקד של מבוקשים שלא לצורך, בניגוד להוראות בג"צ בעניין. ככל הנראה, מערכת הבטחון פעלה כדי לאתר את מקור המידע של בלאו. בדצמבר 2009, ענת קם, שהייתה כבר עיתונאית בוואלה, נתפסה. אורי בלאו, הכתב, ברח לבריטניה, כדי לחמוק מעדות במשפטה של קם. […]
החל מאוקטובר הוציאה מדינת ישראל (כנראה לבקשת השב"כ) בבית משפט השלום צו איסור פרסום על הפרשה.[…] אף עיתונאי לא הסכים לפרוץ את מעגל השתיקה […]. אבל הסוד לא נשמר זמן רב, מרגע שמספר בלוגרים לקחו על עצמם את היוזמה לפרסם את המידע. מרגע שזה קרה, הרשתות החברתיות התעוררו והתפוצצו במידע על הסיפור. והוא זכה לתפוצה רחבה מאד באינטרנט (חפשו בגוגל "ענת קם" ותראו כמה תוצאות תקבלו על הנושא).

(עידכון 8.4.2010: לינק למאמר בווינט בנושא)

רקע – סקר הדעות של הקוראים לגבי ענת קם

ומה בין זה לסטטיסטיקה?
ובכן, עושה רושם שהדעות בציבור לגבי הפרשה (שכמובן אף אחד לא שמע עליה), הן חלוקות. יש אנשים שהם בעד ענת קם ויש אלו שנגד, בעד אורי בלאו, ויש נגד, בעד יאיר נווה, ויש נגד.
ההגיון דורש שיהיה קשר בין העמדות הפוליטיות העקרוניות של האנשים לבין התפיסה שלהם את הפרשה המסויימת הזו. את הקשר הזה ביקש טל ירון לגלות באמצעות עריכת "סקר משפט ציבורי" בנושא של ענת קם וסביבותיה. נכון לרגע זה כ- 78 איש ענו על הסקר (אני, אגב, לא עניתי). ואת הניתוח הסטטיסטי של הסקר נתבקשתי לבצע – ואבצעו כאן כעת.

ניתוח סטטיסטי של הסקר

אז לפני שנפנה להציע ניתוח של הסקר, נאמר מילה על מה אפשר לקבל ממנו: הסקר לא מייצג נאמנה אף "קהל" מלבד קהל הקוראים של הבלוג של טל ירון. להניח שהקהל הזה איכשהו מייצג את האוכלוסיה הרחבה זה יהיה גוזמה לא ריאלית. גם הקשרים הסטטיסטיים שיתקבלו בין המשתנים עשויים להיראות אחרת אילו הסקר היה מוצג לאוכלוסיה הרחבה (ואני לא אכנס היום להסבר מדוע), מה שאומר שהסקר הזה הוא בעיקר לשם השעשוע, וקבלת התחושה הבסיסית של איך הקשרים בין המשתנים עשויים להיראות.

הסקר מורכב מארבע שאלות העוסקות בעמדות הפוליטיות של אנשים וב-5 שאלות העוסקות בדעות של האנשים על הפרשה של ענת קם.
טל ירון ביקש שהניתוח שלי יענה על שתי שאלות:
1) האם יש קשר בין השקפת העולם למצב גיבורי הסיפור
2) האם יש קשר למפלגה ולהשקפת העולם

כדי לענות על השאלות הללו, הרי שלא יעזור לנו הסתכלות חד ממדית על כל אחד מתשעת המשתנים שלנו (זה מה שגוגל מציע, וזה לא עוזר במיוחד לענות על השאלות).
אף על פי כן, הנה תוצאות הניתוח על פי גוגל (לחצו על התמונה לגירסה מוגדלת)

anat kam - google spraedsheet analysis - 1

אני לא התייחס בהרחבה לתוצאות הללו, אתם מוזמנים לעבור על התמונה ולהתרשם בעצמכם.

ניתוח סטטיסטי של הסקר – ניתוח דו-ממדי – שיקולים סטטיסטיים

כדי לענות על השאלה שטל ירון שאל, עלינו להשוות בין התוצאות במשתנה אחד לתוצאות באחר. אני אתחיל מלתאר כמה מהשיקולים בכלים הסטטיסטיים בהם השתמשתי ואז אציג את התוצאות.
הכלים בהם נשתמש כאן הם:
0) גוגל דוק – היכולת שלי לבצע את הניתוח הסטטיסטי הזה בזריזות ובקלות, מסתמך על זה שהנתונים נאספו (על ידי גוגל-טפסים) הישר לתוך גליון שאותו יכולתי לשאוב לתוך R (התוכנה הסטטיסטית האהובה עלי). כתבתי עוד על החיבור בין השניים בפוסט: Google spreadsheets + google forms + R = Easily collecting and importing data for analysis
1) קורלציות – אנחנו רוצים לראות מהי הקורלציה בין כל צמד משתנים. נשים לב שהיות והמשתנים שלנו הם קטגוריאליים סדורים, הרי שהקורלציה היותר מתאימה כאן היא זו של ספירמן (הא-פרמטרית) ולא זו של פירסון (שמתאימה לנתונים רציפים).
2) תרשימי פיזור – נשים לב שבמקרה שלנו תרשימי פיזור הם אתגר. מדוע? כיוון שכאשר מציגים תרשים פיזור עבור זוג משתנים עם 5 רמות בלבד, צפוי שנקבל הרבה נקודות שיעלו אחת על גבי השניה. ואז השאלה היא כיצד להציג מצב כזה. אני בחרתי לפתור זאת באמצעות שינוי גודל הנקודות (ככל שיש יותר נקודות במקום מסויים, כך גודל הנקודה המייצגת תהיה גדולה יותר). וגם, על ידי הוספה של קו מגמה מוחלק (LOWESS, למי שהיה סקרן לדעת).
3) השילוב הרב ממדי – השילוב של הצגת הרבה זוגות של השוואות (בהקשרנו) מתבצע על ידי גרף שנקרא "תרשים מטריצת-פיזור של קורלציות". הסברתי עוד כיצד אני מייצר את התרשים הזה ב- R בפוסט Correlation scatter-plot matrix for ordered-categorical data . אגב, נשים לב שבמקרה שמישהו לא ענה על אחת השאלות, החלטתי להסיר את התשובה שלו מהתרשים (המדקדקים היו ממלאים את הנתון שלו בנתון זמני, אבל החלטתי לוותר על זה ולהציג רק אנשים שהשיבו על כל השאלות. כמו כן, התעלמתי מסוגיית ההשוואות המרובות – עמכם הסליחה)
(הערה אחרונה – שימו לב שהניתוח שלי הצליח לשאוב את העברית של גוגל-מסמכים לתוך התוכנה R, ולהציג אותה בפלט. בהזדמנות קרובה אני אכתוב פוסט שבו הסברתי איך עושים זאת. אך לבינתיים תדעו שזה אפשרי וגם שזה לא טריוויאלי לעשות…)

ועכשיו, לתוצאות –
להמשיך לקרוא

העלייה ה"מרשימה" (אך לא מובהקת סטטיסטית!) בקוראי מעריב

פוסט משותף עם עידו קינן.

בסופ"ש האחרון פנה אלי עידו וביקש ממני התייעצות קטנה. הוא נתקל בידיעה בעיתון מעריב, המדווחת על "עלייה מרשימה בחשיפה לעיתון" בהתאם לסקר TGI.
עליה מרשימה בחשיפה לעיתון מעריב

היות ועמדו לרשותו קובץ הנתונים של סקר TGI (להנתאכם, הנה הוא: TGI-media ), הוא התייעץ איתי האם המסקנה של עיתונאי מעריב תקפה או לא. מהסתכלות זריזה בקובץ, ראיתי שהתשובה היא חד משמעית – לא.

הנתונים בקובץ מספרים לנו שבמדד החצי שנתי, יש ירידה הדרגתית מ-16.6% (חציון 2 2007) ל-15.1% (ח1 2008) ל-13.8% (ח2 2008), ואז עליה קלה ל-14.4% (ח1 – 1 200). גם העליה הקלה בחציון האחרון נמצאת בטווח הטעות של הנתונים, היות שרווחי הסמך הם של אחוז אחד לכל אחד מהמספרים, בעוד שהעלייה הייתה של פחות מאחוז.

הנתונים שבעיתון מציגים את השינוי באחוזים, אבל לא את מידת הוודאות שבהבדלים (כלומר, את מידת הוודאות שלנו שאם נקח מדגם אחר נקבל תוצאות דומות). הגרף שלפניכם (אשר נוצר בעזרת התוכנה הסטטיסטית R), מציג את השינוי שנעשה באחוזי הקוראים אך משלב בתוכו את רווחי הסמך:

the big non rise

הגרף מדגים היטב שההבדל באחוזים איננו מובהק סטטיסטית, היות ורווחי הסמך "עולים" האחד על גבי השני. ואינם ניפרדים ממש בגובהם.

כדי לעשות מבחן סטטיסטי תקף, צריך להשתמש בנתונים הגולמיים ולבצע עליהם מבחן סטטיסטי מתאים (אפשר מבחן להפרש פרופורציות או מבחן חי בריבוע, הם שקולים מבחינת הערך P/רמת-המובהקות שהם יפיקו). הנה הטבלה של הנתונים (לקוחה מהנתונים של הסקר):

קוראים מעריבלא קוראים מעריב
יולי-דצמבר 2008 690.9664316.034
ינואר-יוני 2009721.0084285.992

הפעלה של מבחן חי בריבוע על הנתונים מביא לערך P של 0.40.
או במילים אחרות – אין שינוי מובהק באחוז הקוראים בין התקופה האחת לאחרת.

לסיכום: מעבר לבעיות המובנות בסקר TGI (כפי שעידו מציין בפוסט שלו), הבעיה אותה חשפנו כאן היא דיווח על מספר (אומדן לאחוז החשיפה לעיתון), מבלי התחשבות במידת הרעש של הנתונים (רווחי הסמך של האומד). חוסר התחשבות כזו מאפשרת להגיע למסקנות שגויות ביותר, ועל זה קיבלנו דיווח ממעריב. מזכיר קצת את הדיווח הלקוי שהתקשורת סיפקה לסקרי הבחירות האחרונות.

ועל זה כבר אמר מרק טווין הרברט וולס (H. G. Wells) – "החשיבה הסטטיסטית בעידן המודרנית היא מיומנות הכרחית לאזרחות טובה"

הפער בתחזית הפער: 3 או 12 (על סקרי בחירות ומיגבלותיהן)

המאמר שלפניכם הוא פרי מקלדתו של פרופסור יואב בנימיני מאוניברסיטת תל אביב. קריאה מהנה:

* * *

ביום רביעי שעבר פורסמו בשני ערוצי טלביזיה שני סקרי בחירות. לפי הסקר שפורסם בערוץ 10 היה לליכוד יתרון של 3 מנדטים על קדימה. לפי הסקר שפורסם בתוכניתו של נסים משעל בערוץ 2 היתרון היה 12 מנדטים. כיצד אפשר להגיע לפערים שכאלה? האם בכלל יש אמינות לסקרים בטרם בחירות, וכיצד למנוע את ההשפעות השליליות על ציבור הבוחרים?

סקר הבחירות שמפורסם במוצאי יום הבחירות הוא בגדר שעשוע תקשורתי ואינטלקטואלי – התוצאות האמיתיות כבר נקבעו, ויודעו בתוך יום. לעומת זאת לסקר בטרם בחירות השפעה רבה. הבוחרים יכולים ללמוד דרכו על התוצאה המסתמנת ומתוך כך לבחור לחזק או להחליש גוש מפלגות על ידי תמיכה במפלגה מסוימת, כמו גם לתמוך במפלגה שהיא בסביבת אחוז החסימה או להימנע מכך. המחוקקים בישראל הכירו בחשיבותם והשפעתם של סקרי בחירות בתקופה הסמוכה לבחירות, וקבעו כללים מיוחדים לפירסום תוצאותיהם.

כיצד יכולים להופיע פערים גדולים כל כך בתוצאות סקרים? נלך מהחשוב פחות אל החשוב יותר: למי שמממן את הסקר עלולה להיות השפעה אפשרית, על ידי הטיות קטנות במהלכו, כמו בחירת האוכלוסיה המיוצגת בסקר, סדר השאלות, או אפילו השפעה על נוסח השאלה שנשאלה. כך ניתן לצפות לשינוי ניכר בתשובה באם השאלה היא: "כידוע יש חשיבות בימים סוערים אלו לעמידה איתנה. מי לדעתך…" וזאת לעומת הפתיחה "כידוע גם בימים בוערים אלו יש לשמור על אופק של שלום. מי לדעתך…". לכן, כאשר דובר מפלגה מסוימת מדווח בשידור "לפי סקר בידינו", הזהירות צריכה להיות רבה. אם המממן ועורך הסקר הם גופים חסרי פניות אין לצפות להטיה מכוונת בהקשר זה.

חשוב מכך להבין מה גודל המדגם אליו פנו, איזה חלק ממנו סירב להשיב, ואיזה חלק מהמשיבים עדיין מתלבטים ומהווים קולות צפים. טעות הדגימה הניתנת בחלק מפרסומי הסקרים עונה על השאלה עד כמה יכולה להיות תוצאת הסקר שונה לו אנשים אחרים היו עולים במדגם. כך למשל, נתוני הסקר שפורסם בערוץ 10 פורסמו למחרת ב"הארץ" ומהם ניתן היה ללמוד שטעות הדגימה אינה מבוטלת: 3.2% שהם קרוב ל4 מנדטים. (עבור הפער בין שתי המפלגות הטעות גדלה לכ-6 מנדטים)

אולם לטעות זו מתווספות שתי בעיות שיכולות להיות חמורות יותר. המסרבים להשיב – שמעידים אולי על הטייה שיטתית שכיוונה אינה ידוע כלל, ואלו שטרם החליטו. כך למשל, המספר הגבוה של המסרבים להשיב הפיל כנראה בפח את סוקרי הפריימריז. הבלתי מחליטים מאתגרים תמיד את הסוקרים השונים כאשר לכל אחד שיטות שונות לפלח את דפוס הצבעתם העתידי, כמו גם לחזות באם ילכו לקלפי, על מנת לתת תחזית מנדטים. כמובן שהשיטה נשמרת בסודיות על ידי כל סוקר, אבל כל בוחר יכול לעמוד על גודל הטעות האפשרית מתוך אחוז הבלתי מחליטים. אם האחוז גדול, כמו בבחירות הנוכחיות בהן הוא עדיין קרוב ל30%, ההבדל שנובע משיטות הפילוח השונות יכול להיות גדול. במקרה זה צריך להתייחס בספקנות ראויה לכל התוצאות. כאשר אחוז זה יקטן, בטחוננו בתוצאות החיזוי יגדל.

לכן, בראותכם סקר בחירות שאלו מי מימן, מי ערך ומתי; מי נשאלו ומה; כמה סרבו להשיב, מהי טעות הדגימה וכמה עדיין מתלבטים; זאת על מנת להעריך את ערכו.
איך תדעו? לצערנו הדבר בלתי אפשרי. למרות שחוק תעמולת הבחירות מחייב לתת כמעט את כל המידע הזה עם פירסום או דיווח על תוצאות הסקר בעיתונות הכתובה והמשודרת, המציאות רחוקה מכך. במעקב חלקי של קבוצת מתנדבים מהאיגוד הישראלי לסטטיסטיקה התקבלה תמונה עגומה ביותר. לדוגמא, שני פרסומי הסקרים בטלביזיה שהזכרנו נתנו רק את המידע על עורכי הסקר ותחזית המנדטים ואפילו טעות הדגימה הושמטה, למרות שבאחד מהערוצים דנו בפער בין התחזיות. אפילו עיתון זה, שמתקרב ביותר לפירסום מלוא המידע הדרוש, לא נותן מידע על אחוז המסרבים להשיב.

על אמצעי התקשורת לשנות את דרך פירסום תוצאות הסקרים כבר במערכת בחירות זו. גם לוועדת הבחירות המרכזית תפקיד להבהיר את החובה במילוי החוק. עד אז, וגם לאחר מכן, התייחסו בזהירות הדרושה להשענות על תוצאות הסקרים בקביעת החלטתכם למי להצביע.

פרופ' יואב בנימיני
נשיא האיגוד הישראלי לסטטיסטיקה