خلاصه رایگان
کتاب کارآگاهِ دادهها
نویسنده: تیم هارفورد
دسته بندی: کتاب های بهرهوری کتاب های توسعه فردی کتاب های تصمیمگیریکتابِ کارآگاهِ دادهها یه راهنمای شستهرفته و کاربردی به قلمِ آقای هارفورده که سالِ 2021 چاپ شده و اگه میخواید بدونید آمار و ارقام از چه راههایی واقعیتو تحریف و مبهم میکنن، باید خوندنشو در اولویت قرار بدید. نویسنده توی این کتاب، با استفاده از تحقیقاتِ روانشناختی و مثالهای روشن، بهمون میگه که ذهنِ ما چطور میتونه روی برداشتِ ما از آمار و دادهها تأثیر بذاره و باعثِ نتیجهگیریِ نادرست بشه. اگه ما تصوراتِ نادرست و سوگیریهای ذهنیمونو کنار بذاریم، میتونیم دادهها، و در نتیجه دنیا رو، همونطوری که هست ببینیم.
خلاصه متنی رایگان کتاب کارآگاهِ دادهها
بریم که یه مروری داشته باشیم بر این خلاصهکتاب و بعد بریم سرِ اصلِ مطلب.
برای فهمِ صحیحِ آمار باید از دروغها و مغالطهها به سلامت عبور کنیم.
هیچ میدونستید نوزادهای کوچولو رو لکلکها میارن؟ آمار این حرفو ثابت میکنه: توی کشورهایی که جمعیتِ لکلکها زیاده، بچههای بیشتری به دنیا میان تا کشورهایی که جمعیتِ لکلکهاشون کمه!
البته که این حرف درست نیست. لکلکها هیچ بچهای برای ما آدما نمیارن. اما خیلی راحت میتونیم کاری کنیم که اینطوری به نظر برسه. کافیه یه استدلالِ آماریِ مخدوش سرِ هم کنیم. همین سهولتِ دروغ گفتن با استفاده از آمار باعث شده خیلی از مردم با بدبینی به آمار و ارقام نگاه کنن.
مشکل اینجاست که بدونِ آمار ما ابداً نمی تونیم بفهمیم که سیگار کشیدن شما رو 16 برابر بیشتر در معرضِ سرطان قرار میده، یا ویروسِ کرونا از انسان به انسان منتقل میشه.
توی این خلاصهکتاب دهتا راهکار برای فهمِ آمار بهتون میدیم تا با استفاده از اونا بتونید از تفکرِ منطقی بهرهمند بشید و افکارِ غیرمنطقی رو دور بریزید.
توی این خلاصهی صوتی چیزای دیگه ای هم یاد میگیرید، از جمله اینکه:
اون منتقدِ هنریِ مشهور چطور گولِ یه سندِ جعلی رو خورد؟
چرا میزانِ بیشترِ کشتوکشتارهای لندن نسبت به نیویورک اتفاق خوبیه؟ و:
چرا کارشناسا اینقدر پیشبینیهاشون افتضاحه؟
---------------------------------------------
به واکنشهای احساسیِ خودتون نسبت به دادهها و اطلاعات دقت کنید.
آبراهام بریدیِس (Abraham Bredius) یه کلکسیونر و منتقدِ هنریِ پرآوازهی هلندی بود که توی نقد نقاشیهای یوهانس فرمیر (Johannes Vermeer)، نقاشِ بزرگِ قرنِ هفدهم تخصصِ خاصی داشت.
سالِ 1937، یه روز یه وکیل به اسمِ جرارد بون (Gerard Boon) به دیدنِ بریدیِس رفت تا یکی از نقاشیهای تازهکشفشدهی فرمیر رو بهش نشون بده. بریدیِس هرچند خیلی ذوقزده شده بود، اما همچنان محتاط بود. اون این نقاشی رو از همه نظر بررسی کرد تا مبادا جعلی باشه، اما هیچ نشونهای از جعل توش ندید. بنابراین، اصل بودنشو تأیید کرد و حتی گفت این اثر، بهترین اثرِ فرمیره. بریدیِس خودش گفته وقتی این اثر رو دیده بود، نتونسته بود احساساتش رو کنترل کنه. متأسفانه همین احساساتِ سرشارش باعثِ بدبختیش شد؛ چون این تابلو کاملاً قلابی بود. حتی از لحاظِ هنری هم ارزشِ بالایی نداشت و نقاشیِ خوبی نبود، اما به هر حال بریدیس فریبشو خورد. اون با تمامِ وجود آرزو داشت که این اثر واقعاً کارِ فرمیر باشه، برای همین احساساتش بر عقل و منطقش چیره شد. متأسفانه، اکثرِ آدما درست مثلِ بریدیِس، زمانی که با اطلاعاتی مواجه میشن که احساساتشون رو تحریک میکنه، در دامِ فریب گرفتار میشن.
بعضی از آمارها باعثِ واکنشهای احساسی نمیشه. هیچ کس از شنیدنِ اینکه مریخ حدودِ 50 میلیون کیلومتر با زمین فاصله داره ناراحت نمیشه. اما بعضی مسائل، به خصوص مسائلِ سیاسی خیلی راحت کفرِ ما رو درمیارن.
وقتی این اتفاق میفته، ماها معمولاً اطلاعاتی که با پیشفرضهامون سازگاری نداره رو نادیده میگیریم و اونایی که با ذهنیتِ خودمون سازگاره رو قبول میکنیم. تخصص توی یه حوزه ما رو از این دام مصون نمیکنه. حتی بعضی از تحقیقات نشون داده که متخصصا کمتر از مردمِ عادی حاضر میشن دیدگاههاشون رو تغییر بدن، چون هم از اطلاعاتی که بابِ میلشون نیست فراریان و هم توی ساختِ استدلالهایی که به نفعشونه مهارت دارن.
بنابراین هیچکس از تفکرِ احساسی در امان نیست. خوشبختانه پیروی از چندتا اصلِ ساده میتونه احتمالِ این پدیده رو به حداقل برسونه.
اول از همه باید به این توجه کنید که موقعِ برخورد با یه دادهی آماری چه احساسی دارید. احساسِ خشم؟ احساسِ شعف؟ احساسِ بدبینی؟ بعد از اینکه به احساساتتون توجه کردید، یه لحظه مکث کنید. ببینید آیا برای رسیدن به یه نتیجهی خاص دارید به هر دری میزنید؟ اگه به سبک سنگین کردنِ ادعاهای مختلف پایبند باشید اندیشهتون شفافتر میشه، ضمنِ اینکه توی شفافاندیشیدن الگوی دیگران هم میشید.
===================================================
چه زمانی باید به ادعاهای آماری اعتماد کنیم و چه موقع به تجربهی شخصیمون؟
نویسنده زمانی که مجریِ یکی از برنامههای رادیوییِ بیبیسی شد، بلافاصله عاشقِ کارش شد. اما از اینکه مجبور بود هر روز صبح برای رفتن به سرِ کار از شرق تا غربِ لندن رو طی کنه چندان خوشحال نبود. اون مجبور بود هر روز سوارِ یه اتوبوسِ شلوغ و بعد سوارِ یه متروی شلوغتر بشه.
همین صبحای مزخرف باعث شد نویسنده کنجکاو بشه دربارهی شلوغیِ حمل و نقلِ عمومیِ لندن اطلاعات کسب کنه. اون از اینکه فهمید میانگینِ جمعیتِ اتوبوسهای لندن فقط 12 نفر و متروهای این شهر زیرِ 130 نفره جا خورد.
این آمارها به نظرِ نویسنده اشتباهِ محض میومدن. چون با تجربهی شخصیش در تضاد بودن. جریان چی بود؟
همهمون میدونیم که باورها و احساساتِ شخصیِ ما میتونن گاهی وقتا برداشتِ ما رو از دادههای آماری دستخوشِ تحریف کنن. اما بعضی وقتا تجربههای شخصی هم به اندازهی آمار روشنگرن. نکته اینه که بینِ این دوتا تعادل برقرار کنیم.
برای این کار، باید اول از همه اعتبارِ دادههای آماری رو بررسی کنیم؟ چطوری؟ با پیدا کردنِ منبعش. در موردِ حمل و نقلِ عمومیِ لندن، آمار و ارقامی که نویسنده بهش رسیده بود رو یکی از سازمانهای دولتی به اسمِ TFL منتشر کرده بود که کارش جمعآوریِ دادههای حملونقلیه.
پس منبعِ این داده ها معتبر به نظر میرسه. دومین کار اینه که بفهمیم چرا تجربههای شخصی گاهی با آمار همخونی ندارن.
توی مثالی که زدیم، کلیدِ حلِ معما مفهومِ میانگینه. فرض کنیم از یکی از خطهای مترو هر روز 10 تا قطار عبور میکنه. یکی از این قطارها هزارتا مسافر داره، در حالی که اون 9تای دیگه کلاً هیچ مسافری ندارن. میانگینِ مسافرای هر قطار توی این خط معادلِ 100 نفر میشه، که به میانگینِ متروی لندن خیلی نزدیکه. پس آمارِ TfL دروغ نبوده، ولی بیانگرِ تجربههای شخصیِ مسافرایی که توی قطارای شلوغ رفتوآمد میکردن هم نبوده.
توی این مثال، هم آمار و هم تجربههای شخصی معتبر و درست بودن. اما بعضی وقتا یکی از این دوتا کاربردی ترن.
معمولاً زمانی دادههای آماری بَرندهان که مربوط به مسائلِ مرتبط با سلامتی باشن، چون توی آمار، هرقدر جمعیتِ آماری بزرگتر باشه، نتیجه معتبرتره. مثلاً سیگار کشیدن به هر حال شما رو 16 برابر بیشتر در معرضِ سرطانِ ریه قرار میده، ولو اینکه مادربزرگِ 90 سالهی شما که یه سیگاریِ قهاره، سالم و سرحال باشه.
اما بعضی وقتا آمارا دروغم میگن، به خصوص وقتی که قرار باشه عملکردِ کسی رو ارزیابی کنن. آدما زمانی که پای منافعِ شغلی یا مالیشون درمیون باشه، بیشتر در معرضِ دستکاری و جعل و تحریفِ دادهها قرار میگیرن، بنابراین، قضاوتِ مورد به موردِ عملکردها بر آمار و ارقام ارجحیت داره.
بنابراین برای فهمِ حقیقت، باید بدونیم چه وقتایی آمار مناسبه، چه وقتایی تجربهی شخصی و چه وقتایی هردو.
============================================
دقت کنید ببینید هر آمار دقیقاً چه چیزی رو اندازه میگیره.
اواخرِ دههی 2010، بحرانِ مرگومیرِ نوزادان بریتانیا رو فرا گرفت. آمارهای اولیه از این مرگومیرها خیلی با هم اختلاف داشت و اوایل، کسی علتشو نمیدونست.
در نهایت معلوم شد که این اختلافها به خاطرِ تعریفهای متفاوتی بوده که از مرگومیرِ نوزادان وجود داشته. یعنی مثلاً مشخص نبود آیا نوزادایی که توی 22 یا 23 هفتگی به دنیا میان رو باید سقطِ جنین محسوب کرد یا مرگِ نوزادِ متولد شده. توی لندن، این زایمانها رو تحتِ عنوانِ سقطِ جنین ثبت میکردن، در حالی که توی شهرهای دیگه، اونا رو مرگِ زودهنگامِ نوزادِ زنده میدونستن. همین اختلاف در تعریف کافی بود تا نرخِ مرگومیرِ نوزادا از لندن تا شهرهای دیگه این همه تفاوت داشته باشه.
این ماجرا اهمیتِ تعریف و معنای واژهها رو به ما گوشزد میکنه. چیزی مثلِ مرگومیرِ نوزادان اندازهگیریش به نظر ساده میاد: کافیه آمارِ نوزادایی که میمیرن رو دربیاریم. اما اگه یه کم دقیقتر بشیم، میبینیم که این مفهوم واضح نیست چون فرقِ بینِ جنین و نوزاد پیچیدهست و به شدت محلِ اختلافه.
توی حوزهی آمار، که کلاً دربارهی اندازهگیری و شمارشِ چیزهاست، این مسأله خیلی مهمه. ولی ما وقتی که آماری رو میبینیم، خیلی به ندرت برامون سؤال پیش میاد که این آمار دقیقاً چه چیزی رو شمرده یا اندازه گرفته.
به این ادعا دقت کنید: «بچه هایی که بازیهای کامپیوتریِ خشن انجام میدن توی واقعیت هم بیشتر مستعدِ خشونتن.» اصلاً معلوم نیست این ادعا چی رو اندازه گرفته. مثلاً، بازیِ خشنِ کامپیوتری دقیقاً به چه چیزی میگیم؟ این بچههایی که مستعدِ خشونتن، چند بار یا چند ساعت در طولِ روز بازیهای کامپیوتری انجام میدن؟ و اصلاً، محققا دقیقاً چجوری خشونت رو اندازهگیری میکنن؟
ابهاماتی که توی تعریفها وجود داره خوراکِ کساییه که میخوان حقایق رو تحریف کنن و فرضاً دیدگاهِ سیاسیِ خاصی رو پیش ببرن.
مثلاً سالِ 2017، یکی از گروههای طرفدارِ برگزیت (Brexit) طرحِ ممنوعیتِ پنجسالهی مهاجرتِ افرادِ بیمهارت رو پیشنهاد کرد. حالا سؤال اینجاست که منظور از افرادِ بیمهارت دقیقاً چیه؟ توی این طرح، این کلمه به معنای تمامِ کساییه که حقوقشون کمتر از 35 هزار پونده. در نتیجه، اکثرِ پرستارا، معلمای مدارسِ ابتدایی، کارشناسای حقوق، و داروسازها حقِ مهاجرت نداشتن. چه شما طرفدارِ این طرح باشید یا مخالفِ اون، در هر صورت وقتی که تعریفِ دقیقِ «افرادِ بیمهارت» رو بدونید، میتونید بفهمید که دقیقاً چه کسایی مشمولِ این طرح میشن و چه کسایی نمیشن.
پس حواستون باشه که هر وقت با ادعایی روبرو شدید، قبل از اینکه اونو قبول یا تکذیب کنید، تعریفِ واژههایی که توش بکار رفته رو زیرِ سؤال ببرید. اگه جایی دیدید یا شنیدید که نابرابری افزایش پیدا کرده، اول از همه بپرسید: نابرابریِ چی؟
=============================================
قبل از نتیجهگیری از هر ادعایی، اونو توی زمینه مناسبش بررسی کنید
آوریلِ سالِ 2018، تیترهای نگرانکنندهای توی روزنامههای لندن به چشم میخورد که همهشون یه مضمونِ واحد داشتن و اون اینکه: میزانِ قتل توی لندن برای اولین بار از میزانِ قتل توی نیویورک بیشتر شد!
صرفِ نظر از اینکه تعریفِ قتل توی هر شهر و کشوری فرق میکنه، این ادعا از جهاتی درست بود. توی آوریلِ 2018، چهارده قتل توی شهرِ نیویورک اتفاق افتاده بود، در حالی که این میزان توی لندن 15 مورد بود.
خب، چه نتیجه ای میشه از این آمار گرفت؟ راستش، هیچ نتیجه ای نمیشه گرفت. اعداد به تنهایی معنای خاصی ندارن. برای اینکه بفهمیم توی دنیا دقیقاً چه اتفاقی داره میفته، باید بافت و چشماندازِ وسیعتری رو در نظر بگیریم.
بیاید از لحاظِ تاریخی قتلهای لندن و نیویورک رو باهم مقایسه کنیم. سالِ 1990، توی لندن 184 قتل اتفاق افتاد، که این میزان توی آمریکا بیش از ده برابر بود، یعنی 2262 مورد. از اون زمان به بعد، میزانِ قتل توی هر دو شهر کاهش پیدا کرده. سالِ 2017، توی لندن در مجموع 130 مورد قتل اتفاق افتاد و توی نیویورک 292 مورد. این یعنی اوضاع توی هر دوتا شهر خیلی بهتر شده بود.
وقتی از این منظر به قضیه نگاه کنیم، میبینیم که اوضاع در مجموع نه تنها بدتر نشده، بلکه بهتر هم شده. چون نیویورک الآن خیلی امنتر از گذشتهاست، نرخِ قتلش گاهی وقتا از لندن هم پایینتر میاد. پس لندن یهویی تبدیل به شهرِ جانیا و گانگسترا نشده، بلکه آمارِ قتلِ نیویورک خیلی پایین اومده. و در کل، هر دو شهر از چیزی که در گذشته بودن امنتر شدن.
متأسفانه جوِ حاکم بر اخبار جوریه که با بیانِ هیجانی و گزینشیِ خبرها دیدِ انسانو محدود و تنگ میکنه. تصور کنید آماری که توی اخبار ارائه میدن بر اساسِ یک بازهی 25 ساله باشه. اون وقت چی میشه؟ شاید اونوقت گزارشهایی بشنوید دربارهی گسترشِ چشمگیرِ اینترنت یا ظهورِ چین به عنوانِ یه قدرتِ جهانی، نه آمارِ قتل توی لندن و نیویورک اونم توی یه بازهی یک ماهه.
پس وقتی مقیاسهای زمانیِ بزرگتری رو در نظر بگیریم، معنای واقعیِ آمار رو درستتر متوجه میشیم.
یکی دیگه از راههای مفید برای درکِ درستِ آمار، مقیاسهای عددیِ بزرگتره.
مثلاً هزینهی دیوارِ مرزییی که دونالد ترامپ میخواست بینِ آمریکا و مکزیک احداث کنه رو در نظر بگیرید: 25 میلیارد دلار. در ظاهر، این عدد بزرگ به نظر میرسه. اما در مقایسه با کلِ بودجهی دفاعیِ آمریکا که سالانه نزدیکِ 700 میلیارد دلار، یا روزانه حدودِ 2 میلیارد دلاره، میبینیم که هزینهی این دیوار فقط بودجهی دفاعیِ دو هفته از این کشور رو به خودش اختصاص میده، بلکه هم کمتر.
البته ممکنه بازم با خودتون بگید هزینهی این دیوار یا میزانِ قتل توی لندن نگرانکننده ست. اما به هر حال توجه به بافتِ کامل باعث میشه اشرافِ بیشتری به واقعیت پیدا کنید.
======================================================
حتی تحقیقاتِ علمی هم میتونه تحتِ تأثیرِ سوگیریها و پیشداوریها قرار بگیره.
تا حالا دربارهی آزمایشِ غرفهی مربّا که دوتا روانشناس به اسمهای شینا آینگر (Sheena Iyengar) و مارک لپر (Mark Lepper) انجام دادن چیزی شنیدید؟ توی این آزمایش، محققا یه غرفهی مربّافروشی برپا کردن که بعضی وقتا 24 مدل و بعضی وقتا 6 مدل مربا برای چشیدن جلوی مشتری میذاشتن. بعد از اینکه مشتریا مربا رو میچشیدن، بهشون بُنِ تخفیف میدادن تا با قیمتِ پایینتری مربای دلخواهشون رو بخرن. زمانی که ویترینِ مغازه بزرگتر بود، مشتریای بیشتری جذب میشدن. اما فقط سه درصدشون اقدام به خریدِ مربا کردن. ولی وقتی که ویترینِ غرفه جمعوجورتر شد، 30 درصدِ مشتریا مربا خریدن. این روانشناسا نتیجه گرفتن که مردم وقتی گزینههای انتخابیشون محدودتر باشه بهتر واکنش نشون میدن و وقتی که انتخابهای بیشتری داشته باشن بد عمل میکنن.
این تحقیقات بعد از انتشار، زبانزدِ خاص و عام شد. طوری که شما میتونید نتایجِ اون رو همهجا ببینید، از نشریههای روانشناسی گرفته تا سخنرانیهای تِد (TED). اما آیا واقعاً این نتایج قابلِ اعتماده؟
راستش، نتایجِ این تحقیقات اونقدرا هم که محققهاش ادعا میکنن قطعی نیست. مقالاتی که دربارهی مسألهی انتخاب منتشر شدهن اکثراً گویای اینن که گزینههای متعدد میتونه روی انتخابِ ما تأثیرِ شدیداً مثبت یا شدیداً منفی بذاره. اما مقالاتِ منتشرنشدهای که در این باره وجود داره اکثراً تعددِ گزینهها رو بیتأثیر میدونن.
شاید حتی فکر کردن به این واقعیت باعثِ دلسردیتون بشه، اما حقیقت اینه که انتشاراتِ آکادمیک هم همونقدر در معرضِ سوگیری قرار دارن که اخبارِ روزانه.
مفهومی وجود داره به اسمِ «سوگیریِ انتشار»، به این معنا که نشریهها غالباً تحقیقاتی رو منتشر میکنن که نتایجشون غافلگیرکننده و غیرمنتظره باشه، و نتایجِ معمولی رو از قلم میندازن. هرچی باشه، هیچکس دلش نمیخواد توی این نشریهها تحقیقاتی رو بخونه که نتایجشون یکنواخت و کسلکننده باشه.
ضمناً، شغل و درآمدِ خیلی از محققا وابسته به انجام و انتشارِ تحقیقاته. و این انگیزهی قدرتمندیه برای اونا تا داده ها رو به نحوی دستکاری کنن که جذابتر و چشمگیرتر از واقعیت به نظر بیاد. بنابراین، علومِ اجتماعی به نظر میاد با «بحرانِ تکرارپذیری» دستبهگریبون باشه، چون تعدادِ زیادی از تحقیقات و آزمایشهای برجسته قابلیتِ تکرارشوندگی ندارن.
پس تا زمانی که این مشکل حل نشده، بهتره به جای اینکه نتایجِ یه پژوهشو در بوق و کَرنا کنیم، اول از موثق بودنش مطمئن بشیم. اول از همه، نگاه کنید ببینید آیا این نتایج با عقلِ سلیم جور در میاد؟ یا نه، چندان معقول و نرمال به نظر نمیرسه؟ بعد بررسی کنید ببینید با نتایجِ تحقیقاتِ دیگه ای که در همین زمینه انجام شده مطابقت داره یا نه. همین گامهای ساده بهتون کمک میکنه تا از انتشارِ اطلاعاتِ غلط یا گمراهکننده خودداری کنید.
============================================
آمار و اطلاعات همیشه به دردِ همه نمیخورن
تحقیقاتِ زیادی وجود داره که نشون میده آدما برای اینکه همرنگِ جماعت بشن فشارِ زیادی رو تحمل میکنن.
در دههی 1950، روانشناسی به اسمِ سالومون اَش (Solomon Asch ) طیِ یک آزمایش، به سوژههاش دوتا تصویر نشون داد: اولی تصویری از سه تا خط با طولهای متفاوت بود، و دومی، تصویری از یه خطِ معیار بود. تنها کاری که این دو نفر باید میکردن این بود که تشخیص بدن کدومیکی از این سه خطی که توی تصویرِ اولی وجود داره هماندازهی خطِ معیار توی تصویرِ دومه.
منتها یه نکتهای وجود داشت: سوژهها وسطِ سیاهیلشکر گیر افتاده بودن. یعنی کسایی اونجا بودن که عمداً گزینهی نادرست رو انتخاب میکردن تا سوژههای اصلی رو به اشتباه بندازن. سوژهها هم، از همه جا بیخبر، تحتِ تأثیرِ انتخابِ اشتباهِ اطرافیانشون قرار میگرفتن و با طنابِ اونا به چاه میرفتن.
این جور آزمایشها خیلی جالب و جذاب به نظر میرسه. اما نمیتونیم اینطور نتیجه بگیریم که آقای اَش یه حقیقتِ کلی رو دربارهی ذاتِ انسانها کشف کرده، چونکه جامعهی تحقیقاتیِ این روانشناس محدود بود و فقط دانشجوهای آمریکاییِ سفیدپوستِ مذکرِ دههی 1950 رو در بر میگرفت.
اخیراً روانشناسا به این مشکل، یعنی محدود بودنِ جامعهی آماریِ تحقیقاتشون آگاهی پیدا کردهن. اکثرِ این آزمایشها و پژوهشها، جامعهی آماریشون محدود به کشورهای پیشرفته و صنعتیِ غربه.
حالا آیا این معناش اینه که نتایجِ تحقیقاتِ آقای اَش نامعتبره؟ تا سالِ 1996، 133 پژوهشِ دیگه در تکمیلِ این تحقیقات شکل گرفت. اکثرِ این تحقیقاتِ تکمیلی نتایجِ مشابهی رو به دنبال داشتن. اما بعضیاشونم به نتایجِ جالب و متفاوتی رسیدن. مثلاً اینکه آدما بیشتر تمایل دارن همرنگِ دوستا و آشناهاشون بشن تا غریبهها، یا اینکه زنها بیشتر از مردا به دنبالهروی و همرنگِ جماعت شدن گرایش دارن.
توی تحقیقاتِ آکادمیک، رسیدن به نمونهای که نمایندهی جامعه باشه، کارِ چندان مشکلی نیست. اما در بقیهی حوزهها، به خصوص توی نظرسنجیها، به دست آوردنِ دادههای نمادین کارِ سختیه.
مشکلِ اصلیِ نظرسنجیها سوگیریِ نمونههاست، به این معنی که بعضی از افراد بیشتر از بعضی دیگه به پاسخ دادن به نظرسنجی ها تمایل نشون میدن. مشکلِ دیگه مکانِ خاصیه که این اطلاعات و دادهها ازش کسب میشن. مثلاً نظرسنجی از کاربرای آمریکاییِ توئیتر چه بسا فقط نمایندهی جمعیتِ جوان و تحصیلکرده و دانشگاهی باشه، چون این جمعیت بیشتر از بقیه احتمالش هست که از توئیتر استفاده کنن.
پس هر وقت با دادههای آماری مواجه شدید، این واقعیتها رو هم در نظر بگیرید، و همیشه از خودتون بپرسید: چه کسایی ممکنه توی این نمونهی آماری از قلم افتاده باشن؟ تمامِ تلاشتون رو برای پیدا کردنِ نقاطِ کورِ این تحقیقات به کار بگیرین.
----------------------------------------------------
همیشه احتمالِ نادرست بودنِ دادههای بزرگ و الگوریتمها رو بدین
وبسایتِ گوگلفلو ترندز (Google Flu Trends) از همون سالِ تأسیسش یعنی سالِ 2009، خیلی سر و صدا به پا کرد. این وبسایت که متعلق به گوگله ادعا میکرد که دادههای مربوط به شیوعِ فصلیِ آنفولانزا توی جهان رو به صورتِ آماری ارائه میکنه. این وبسایت عبارتهایی مثلِ «علایمِ آنفولانزا» و «نزدیکترین داروخانهها به من» رو که توی گوگل سرچ شده بود محاسبه میکرد و از این راه، تعدادِ مبتلاهای جدید به آنفولانزا رو با دقتِ زیادی تخمین میزد، حتی سریعتر از نهادهای مسئول.
از خیلی جهات، گوگل فلو ترندز نویدبخشِ یک دورانِ جدید بود، دورانِ الگوریتمها و دادههای بزرگ. منظور از دادههای بزرگ اطلاعاتیه که ما موقعِ گشتوگذار توی اینترنت، پرداخت با کارتهای بانکی یا استفاده از گوشیهای همراه از خودمون به جا میذاریم. اَلگوریتمها هم برنامههای کامپیوترییی هستن که کارشون کشفِ الگوهاییه که پشتِ مجموعهدادهها وجود داره.
از قرارِ معلوم، گوگل فلو ترندز از دادههای بزرگ و الگوریتمها استفاده میکرد تا دربارهی آنفولانزا دادههای مفید و دقیقی رو منتشر کنه. اما چهار سال بعد، گوگل اعلام کرد که این پروژه کاملاً شکست خورده. اما چرا؟
این پروژه توی یه زمستون، از کار افتاد و سوخت. طراحای پروژه دلیلش رو ورشکستگی اعلام کردند، ولی ورشکستگییی در کار نبود. طبقِ برآوردهای این سایت، ابتلا به آنفولانزا دو برابر بیشتر از اون چیزی بود که نهادهای رسمی مثلِ سی.دی.سی (CDC) منتشر کرده بودن.
خب، مشکل کجا بود؟ مشکل اینجا بود که گوگل واقعاً نمیدونست چه ارتباطی بینِ عبارتهای سرچ شده با شیوعِ آنفولانزا وجود داره. الگوریتمِ این پروژه هم مثلِ همهی الگوریتمهای دیگه دنبالِ کشفِ الگوهای موجود توی دادهها بود، اما چیزایی رو با آنفولانزا مرتبط دونسته بود که هیچ ربطی به این بیماری نداشتن. در نتیجه، این الگوریتم به جای اینکه آمارِ آنفولانزا رو دربیاره، بیشتر آمارِ فصلِ زمستون و هرچیزی که مربوط به این فصل بود رو در میاورد. برای همین، نتونست شیوعِ آنفولانزای تابستانه رو که سالِ 2009 اتفاق افتاد برآورد کنه.
البته، در بعضی موارد بهتره به الگوریتمها بیشتر از انسانها اعتماد کنیم. مثلاً شواهدِ زیادی هست که نشون میده قضاوتِ انسانها برای محکوم کردنِ مجرمین، معمولاً هیچوقت صددرصد بیطرفانه یا برابرانه نیست. در حالی که الگوریتمها برای صدورِ حکم و مجازات خیلی بهترن، چون پروندههای فعلی رو با پروندههای مشابهِ گذشته مقایسه میکنن و بعد حکم صادر میکنن.
گاهی وقتا الگوریتمها نتایجِ دقیق و باکیفیتی میگیرن و گاهی وقتا نه. برای همین، ما باید هر الگوریتمی رو جداگانه قضاوت کنیم و دقتِ نتایج رو به همهی الگوریتمها تعمیم ندیم. البته این کار، کارِ مشکلیه، چون خیلی از شرکتها موتورهایی دارن که براشون درآمدزاست و دوست ندارن راز و رمزها و الگوریتمهای پشتِ این موتورها رو لو بدن. اما اگه الگوریتمها پشتِ دیوارِ شیشهای قرار بگیرن تا همه بتونن اونا رو ببینن، خیلی بهتر میتونیم بفهمیم که تصمیماتی که دارن میگیرن بر چه اساسیه و چطور میتونن پیشرفت کنن.
اهمیت و کاربردِ آمارهای رسمی رو دستِ کم نگیرین
ادارهی بودجهی کنگرهی آمریکا سالِ 1974 توی آمریکا تأسیس شد تا هزینههای مربوط به طرحهای دولتی رو به کنگره گزارش بده. طبقِ گفتهی یکی از مسئولای این اداره، هر طرحی بلافاصله هزینههاش محاسبه و ثبت میشه و برای همین، این گزارشها بیطرفانهست و هیچ شک و شبههای توش نمیمونه.
اما همهی رئیسجمهورای آمریکا نظرِ مساعدی به برآوردهای این اداره ندارن. اولین رئیس جمهورِ منتقدِ این گزارشها، جیمی کارتر بود که دنبالِ افزایشِ بهرهوریِ انرژی در آمریکا بود. ادارهی بودجهی کنگره، طرحهای پیشنهادیِ کارتر رو ارزیابی کرد و به این نتیجه رسید که اونطور که باید و شاید جواب نمیدن. دولتِ کارتر از اینکه این اداره با اونا همکاری نمیکرد ناراحت بود. اما نکته دقیقاً همین بود: بهترین سازمانهای دولتی اونایی هستن که آمارو دقیق منتشر میکنن، خواه سیاستمدارا ناراحت بشن خواه خوشحال.
زمانی که سیاستمدارا و مسئولین در صدد برمیان تا کارِ نهادهای آماری رو تحریف کنن یا اعتبارشون رو زیرِ سؤال ببرن، ممکنه فاجعه رخ بده.
به مثالِ یونان توجه کنید. آمارهای رسمیِ این کشور در اوایلِ دههی 2000 اصلاً قابلِ اعتماد نبود. یونان برای اینکه توی منطقهی یورو بمونه، مجبور بود کسریِ بودجهشو زیرِ سه درصد از تولیدِ ناخالصِ داخلیش نگه داره. این کار با استفاده از روشهای متعارف غیرممکن بود. برای همین مقاماتِ یونان تصمیم گرفتن آمارو یه خُرده دستکاری کنن تا یه چند میلیارد یورو از سروتهِ قرضهایی که از اینور و اونور گرفته بودن بزنن.
این دستکاریهای آماری سالِ 2009 برملا شد. وسطِ بحرانِ اقتصادی، اتحادیهی اروپا متوجه شد که پولایی که یونان قرض گرفته خیلی بیشتر از اون مبلغیه که خودش اذعان کرده، و تازه، از پسدادنِ این مبلغ هم ناتوانه. و این جوری بود که اقتصادِ یونان خیلی زود فروپاشید.
وجودِ نهادهای بیطرفی که آمار منتشر کنن، نشونهی صداقتِ یک کشوره. اما مزایای دیگه ای هم داره که به هزینهش میرزه.
برای مثال، بریتانیا تحلیلی دربارهی دخل و خرجها انجام داده بود که نشون میداد دادههای مربوط به سرشماریِ ملی توی تمامِ زمینهها میتونه مفید باشه، از سیاستهای مربوط به «مستمری» بگیر تا ساختِ مدارس و بیمارستانها در مناطقِ موردِ نیاز. به علاوه، این امکان رو به بقیهی سازمانها هم میداد تا تمامِ آمارهای سرانهی خودشون رو بتونن محاسبه کنن.
متأسفانه، این تحلیل نتونست ارزشِ مالیِ تمامِ محاسباتِ آماری رو برآورد کنه، اما برآوردش این بود که منافعِ این محاسبات حداقل چیزی حدودِ 500 میلیون پوند در ساله. خودِ سرشماری کمتر از این مقدار هزینه بر میداره و تا ده سال هم به کار میاد و در نتیجه، با یه سرمایهگذاریِ اولیه، ده برابر سود حاصل میکنه. اگه دولتها بخوان مشکلاتِ کشور رو حل کنن، باید بر اساسِ آمارِ درست و دقیق پیش برن، و بهترین کار، استفاده از آمارهای رسمیه.
--------------------------------
فریبِ نمودارها و چارتهای پرزرق و برق رو نخورید
دیوید مککندلس (David McCandless) نویسندهی کتابِ اطلاعات زیباست، انیمیشنِ فراموشنشدنی و تماشایییی ساخته به اسمِ دتریس (Debtris). توی انیمیشنِ دتریس هم درست مثلِ بازیِ کامپیوتریِ تتریس (Tetris) یا همون خونهسازی، قطعاتِ رنگیِ بزرگی رو میبینیم که از آسمون پایین میان. اندازهی هر کدوم از این قطعات نشوندهندهی هزینههای مختلفه، از جمله بودجهی سازمانِ ملل، هزینهی جنگِ عراق در سالِ 2003، و درآمدِ فروشگاهِ زنجیرهایِ والمارت.
موسیقیِ گیرا و گرافیکِ رنگارنگ و جانماییِ آهستهی هر قطعه، همه با هم به زیباییِ هرچه بیشترِ این انیمیشن کمک کردهن. اما متأسفانه، همین زیباییها باعث شده تا خیلی از ایراداتی که توی دادههای این انیمیشن وجود داره از چشممون پنهون بمونه.
گاهی وقتا، دادههای آماری جلوهی زیبایی دارن، اما اطلاعاتِ که پشتِ اونها هست زشته. همین اشکال توی دتریس هم وجود داره و اشکالاتِ متعددی بهش وارده. برای مثال، ارزشِ خالص با ارزشِ ناخالص خَلط شده. مثلِ این میمونه که سودِ یه کارخونه رو با گردشِ مالیش بخوایم مقایسه کنیم.
با توجه به مشکلاتی که توی انیمیشنِ دتریس وجود داره، آیا باید هر نوع دادهای که رنگولعابِ زیبایی داره رو رد کنیم؟ نه لزوماً اینجوری نیست. گاهی وقتا، میشه بینِ دقت و زیبایی تعادل برقرار کرد. نمونهش، کارهای فلورِنس نایتینگله (Florence Nightingale)، شخصیتِ افسانهاییی که امروز اونو به عنوانِ بنیانگذارِ پرستاریِ مدرن میشناسن.
یکی از تخصصهای نایتینگل آمار بود. سالِ 1858، چیزی رو اختراع کرد که معروفه به دیاگرامِ رُز. هدفِ خانمِ نایتینگل از خلقِ این دیاگرام این بود که ثابت کنه اقداماتِ بهداشتی میتونه تعدادِ مرگومیرِ بیماریهای واگیر رو کاهش بده. او زمون، دانشمندا نمیدونستن که رعایت نکردنِ مسائلِ بهداشتی میتونه به انتشارِ ویروسها و میکروبها کمک کنه.
دیاگرامِ رُز شبیهِ دوتا گلِ رُزِ کنارِ هم طراحی شده بود. یکی از اونا نشوندهندهی بیماریها و مرگومیرها قبل از رعایتِ بهداشت بود و یکی دیگه مربوط به بعد از رعایتِ بهداشت. این نمایشِ مقایسهوار باعث شد تا میزانِ مرگهایی که با رعایتِ بهداشت میشد ازشون پیشگیری کرد چشمِ هر بینندهای رو خیره کنه. این دیاگرام باعث شد دکترهایی که نسبت به اقداماتِ بهداشتیِ نایتینگل مردّد بودن مجاب بشن، و در نتیجه، قوانینِ سلامتِ جمعی نهایتاً به تصویب برسن.
برای اینکه در دامِ نمودارها و جدولهای غلطانداز گرفتار نشیم، بهتره ببینیم با دیدنشون چه واکنشِ احساسییی در ما برانگیخته میشه. بعد از اینکه به این احساسات توجه کردیم، باید مطمئن بشیم که دادههایی که این نمودارها دارن ارائه میکنن رو واقعاً فهمیدهیم. باید ببینیم معنای محورها چیه، چه چیزایی به شمارش دراومدن، و چه آزمایشهایی توی این نمودارها بررسی شده. حواستون باشه که ممکنه طراحِ این نمودارها خواسته باشه شما رو به چیزی متقاعد کنه، که البته به خودیِ خود هیچ مشکلی نداره، اما باید حواستون باشه که گمراه نشید.
-----------------------------------------
همیشه ذهنتون رو باز نگه دارید و در دیدگاههاتون تجدیدِ نظر کنید
فیلیپ تتلاک (Philip Tetlock) یه روانشناسِ متولدِ کانادا بود که به همراهِ گروهی از جامعهشناسا برای پیشگیری از جنگِ هسته ای بینِ آمریکا و شورویِ سابق تلاش میکردند. برای این منظور، تتلاک با کلّی متخصص مصاحبه کرد تا نظرِ اونا رو راجع به تمامِ اتفاقاتِ احتمالیِ آینده جویا بشه.
ولی از اینکه میدید متخصصای رشتههای مختلف موقعِ مواجهه با ادلّهی مخالف، همچنان با لجبازی به عقیدهی خودشون میچسبن، حسابی پکر شد. خیلی از اونا به آب و آتیش میزدن تا پیشبینیهای غلطی که در گذشته کرده بودنو توجیه کنن. برای همین، یه تحقیقاتِ زیرکانهای انجام داد تا به وضوح ثابت کنه که این افراد چقدر توی پیشبینیهاشون افتضاح عمل میکنن.
برای این کار، تتلاک 27500 پیشبینی رو از 300 کارشناس و متخصص در زمینههای سیاست، ژئوپولِتیک، و اقتصاد جمعآوری کرد و سؤالای شفافی رو مطرح کرد که بررسیِ صحت و سُقمشون در آینده آسون بود. و بعد، 18 سال برای رسیدن به نتیجه صبر کرد.
سالِ 2005، تتلاک بالاخره نتایجِ خودشو منتشر کرد. خلاصهش این بود که متخصصا توی پیشبینیِ آینده افتضاح بودن. اونا دچارِ اعتماد به نفسِ کاذب بودن، پیشبینیهاشون غلط از آب در میومد و حتی خیلی از پیشبینیهای خودشون رو هم درست به یاد نمیآوردن. و تا آخرین لحظه ادعا میکردن که حق با اوناست، در حالی که نتایج نشون میداد که اشتباه کردهن.
آیا این به اون معناست که جهان زیادی پیچیدهست و پیشبینیش غیرممکنه؟ تتلاک همچین عقیده ای نداشت. برای همین کمرِ همت به انجامِ یه آزمایشِ دیگه بست تا پیشبینیهای 20 هزار فردِ متخصص و غیرمتخصص رو جویا بشه.
جالبترین نتیجهای که از این آزمایشِ دوم گرفت این بود که عده ای از افراد هستن که بهتر از دیگران پیشبینی میکنن. البته پیشبینیهاشون بینقص نیست اما از حدِ معمول بهتره. از طرفی، این افراد هم به مرورِ زمان قدرتِ پیشبینیشون افزایش پیدا کرده بود و این طور نبود که از همون اول پیشبینیهاشون به هدف بخوره.
تتلاک اسمِ این گروه رو گذاشته بود «اَبَرپیشبینها». این دسته چندتا ویژگیِ مشترک داشتن. اما شاید مهمترینِ اونا فکرِ روشن و بازشون بود. به عبارتِ دیگه، اَبَرپیشبینها توی پیشبینیهاشون تعصب و لجبازی به خرج نمیدادن و از اینکه دیدگاههاشونو با شواهدِ جدید وفق بدن خوشحال میشدن.
تحقیقاتِ تتلاک ثابت کرد که اشتباهاتی که ما توی پیشبینیهای آماری مرتکب میشیم، بیشتر از اینکه ناشی از دانشِ ناکافیِ ما باشه، به خاطرِ اینه که از پذیرشِ دادهها سرباز میزنیم. پس همیشه سعی کنید ذهنتون رو باز بذارید. ذهنِ باز در کنارِ دانشِ آماریِ موثّق، باعث میشه تا شناختتون از دنیا خیلی واضحتر و شفافتر بشه.
خلاصه صوتی کتاب کارآگاهِ دادهها
برای دسترسی دائمی به خلاصه صوتی کتاب کارآگاهِ دادهها و تمام 365 کتاب (از طریق اپلیکیشن و کانال تلگرام)، کافیه یک بار اشتراک 365 بوک رو دریافت کنید. این کتابها به شما کمک میکنن در تمام زمینههای زندگی، اطلاعات و مهارت کسب کنید و روز به روز پیشرفت کنید.پیشنهاد ما اینه که از زمانهای مرده (موقع رانندگی، آشپزی و ...) استفاده کنید و روزی به یک خلاصه کتاب گوش کنید.
راستی، ما برای خلاصه صوتی مجموعه 365 کتاب خودمون، یک مبلغ کوچیک دریافت میکنیم که صرف هزینههای 365 بوک میشه و به معنای حمایت شما از این پروژه هست.
دیدگاه خود را بنویسید