0
{{item.title}} {{item.subtitle}}
{{item.total|number}} تومان
حذف
سبد خرید شما خالی است.

خلاصه رایگان

از {{model.count}}

کتاب کارآگاهِ داده‌ها

نویسنده: تیم هارفورد

دسته بندی: کتاب های بهره‌وری کتاب های توسعه فردی کتاب های تصمیم‌گیری

کتابِ کارآگاهِ داده‌ها یه راهنمای شسته‌رفته و کاربردی به قلمِ آقای هارفورده که سالِ 2021 چاپ شده و اگه میخواید بدونید آمار و ارقام از چه راههایی واقعیتو تحریف و مبهم میکنن، باید خوندنشو در اولویت قرار بدید. نویسنده توی این کتاب، با استفاده از تحقیقاتِ روانشناختی و مثالهای روشن، بهمون میگه که ذهنِ ما چطور میتونه روی برداشتِ ما از آمار و داده‌ها تأثیر بذاره و باعثِ نتیجه‌گیریِ نادرست بشه. اگه ما تصوراتِ نادرست و سوگیری‌های ذهنی‌مونو کنار بذاریم، میتونیم داده‌ها، و در نتیجه دنیا رو، همونطوری که هست ببینیم.

خلاصه متنی رایگان کتاب کارآگاهِ داده‌ها

بریم که یه مروری داشته باشیم بر این خلاصه‌کتاب و بعد بریم سرِ اصلِ مطلب.
برای فهمِ صحیحِ آمار باید از دروغها و مغالطه‌ها به سلامت عبور کنیم.
هیچ میدونستید نوزادهای کوچولو رو لک‌لکها میارن؟ آمار این حرفو ثابت میکنه:  توی کشورهایی که جمعیتِ لک‌لکها زیاده، بچه‌های بیشتری به دنیا میان تا کشورهایی که جمعیتِ لک‌لکهاشون کمه!
البته که این حرف درست نیست. لک‌لکها هیچ بچه‌ای برای ما آدما نمیارن. اما خیلی راحت میتونیم کاری کنیم که اینطوری به نظر برسه. کافیه یه استدلالِ آماریِ مخدوش سرِ هم کنیم. همین سهولتِ دروغ گفتن با استفاده از آمار باعث شده خیلی از مردم با بدبینی به آمار و ارقام نگاه کنن.
مشکل اینجاست که بدونِ آمار ما ابداً نمی تونیم بفهمیم که سیگار کشیدن شما رو 16 برابر بیشتر در معرضِ سرطان قرار میده، یا ویروسِ کرونا از انسان به انسان منتقل میشه.
توی این خلاصه‌کتاب ده‌تا راهکار برای فهمِ آمار بهتون میدیم تا با استفاده از اونا بتونید از تفکرِ منطقی بهره‌مند بشید و افکارِ غیرمنطقی رو دور بریزید.
توی این خلاصه‌‌ی صوتی چیزای دیگه ای هم یاد میگیرید، از جمله اینکه:
اون منتقدِ هنریِ مشهور چطور گولِ یه سندِ جعلی رو خورد؟
چرا میزانِ بیشترِ کشت‌وکشتارهای لندن نسبت به نیویورک اتفاق خوبیه؟ و:
چرا کارشناسا اینقدر پیش‌بینی‌هاشون افتضاحه؟
---------------------------------------------
به واکنشهای احساسیِ خودتون نسبت به داده‌ها و اطلاعات دقت کنید.
آبراهام بریدیِس (Abraham Bredius) یه کلکسیونر و منتقدِ هنریِ پرآوازه‌ی هلندی بود که توی نقد نقاشی‌های یوهانس فرمیر (Johannes Vermeer)، نقاشِ بزرگِ قرنِ هفدهم تخصصِ خاصی داشت.
سالِ 1937، یه روز یه وکیل به اسمِ جرارد بون (Gerard Boon) به دیدنِ بریدیِس رفت تا یکی از نقاشی‌های تازه‌کشف‌شده‌ی فرمیر رو بهش نشون بده. بریدیِس هرچند خیلی ذوق‌زده شده بود، اما همچنان محتاط بود. اون این نقاشی رو از همه نظر بررسی کرد تا مبادا جعلی باشه، اما هیچ نشونه‌ای از جعل توش ندید. بنابراین، اصل بودنشو تأیید کرد و حتی گفت این اثر، بهترین اثرِ فرمیره. بریدیِس خودش گفته وقتی این اثر رو دیده بود، نتونسته بود احساساتش رو کنترل کنه. متأسفانه همین احساساتِ سرشارش باعثِ بدبختیش شد؛ چون این تابلو کاملاً قلابی بود. حتی از لحاظِ هنری هم ارزشِ بالایی نداشت و نقاشیِ خوبی نبود، اما به هر حال بریدیس فریبشو خورد. اون با تمامِ وجود آرزو داشت که این اثر واقعاً کارِ فرمیر باشه، برای همین احساساتش بر عقل و منطقش چیره شد. متأسفانه، اکثرِ آدما درست مثلِ بریدیِس، زمانی که با اطلاعاتی مواجه میشن که احساساتشون رو تحریک میکنه، در دامِ فریب گرفتار میشن.
بعضی از آمارها باعثِ واکنشهای احساسی نمیشه. هیچ کس از شنیدنِ اینکه مریخ حدودِ 50 میلیون کیلومتر با زمین فاصله داره ناراحت نمیشه. اما بعضی مسائل، به خصوص مسائلِ سیاسی خیلی راحت کفرِ ما رو درمیارن.
وقتی این اتفاق میفته، ماها معمولاً اطلاعاتی که با پیش‌فرضهامون سازگاری نداره رو نادیده میگیریم و اونایی که با ذهنیتِ خودمون سازگاره رو قبول میکنیم. تخصص توی یه حوزه ما رو از این دام مصون نمیکنه. حتی بعضی از تحقیقات نشون داده که متخصصا کمتر از مردمِ عادی حاضر میشن دیدگاههاشون رو تغییر بدن، چون هم از اطلاعاتی که بابِ میلشون نیست فراری‌ان و هم توی ساختِ استدلالهایی که به نفعشونه مهارت دارن.
بنابراین هیچکس از تفکرِ احساسی در امان نیست. خوشبختانه پیروی از چندتا اصلِ ساده میتونه احتمالِ این پدیده رو به حداقل برسونه.
اول از همه باید به این توجه کنید که موقعِ برخورد با یه داده‌ی آماری چه احساسی دارید. احساسِ خشم؟ احساسِ شعف؟ احساسِ بدبینی؟ بعد از اینکه به احساساتتون توجه کردید، یه لحظه مکث کنید. ببینید آیا برای رسیدن به یه نتیجه‌ی خاص دارید به هر دری میزنید؟ اگه به سبک سنگین کردنِ ادعاهای مختلف پایبند باشید اندیشه‌تون شفاف‌تر میشه، ضمنِ اینکه توی شفاف‌اندیشیدن الگوی دیگران هم میشید.
===================================================
چه زمانی باید به ادعاهای آماری اعتماد کنیم و چه موقع به تجربه‌ی شخصی‌مون؟
نویسنده زمانی که مجریِ یکی از برنامه‌های رادیوییِ بی‌بی‌سی شد، بلافاصله عاشقِ کارش شد. اما از اینکه مجبور بود هر روز صبح برای رفتن به سرِ کار از شرق تا غربِ لندن رو طی کنه چندان خوشحال نبود. اون مجبور بود هر روز سوارِ یه اتوبوسِ شلوغ و بعد سوارِ یه متروی شلوغتر بشه.
همین صبحای مزخرف باعث شد نویسنده کنجکاو بشه درباره‌ی شلوغیِ حمل و نقلِ عمومیِ لندن اطلاعات کسب کنه. اون از اینکه فهمید میانگینِ جمعیتِ اتوبوسهای لندن فقط 12 نفر و متروهای این شهر زیرِ 130 نفره جا خورد.
این آمارها به نظرِ نویسنده اشتباهِ محض میومدن. چون با تجربه‌ی شخصیش در تضاد بودن. جریان چی بود؟
همه‌مون میدونیم که باورها و احساسات‌ِ شخصی‌ِ ما میتونن گاهی وقتا برداشتِ ما رو از داده‌های آماری دستخوشِ تحریف کنن. اما بعضی وقتا تجربه‌های شخصی‌ هم به اندازه‌ی آمار روشنگرن. نکته اینه که بینِ این دوتا تعادل برقرار کنیم.
برای این کار، باید اول از همه اعتبارِ داده‌های آماری رو بررسی کنیم؟ چطوری؟ با پیدا کردنِ منبعش. در موردِ حمل و نقلِ عمومیِ لندن، آمار و ارقامی که نویسنده بهش رسیده بود رو  یکی از سازمانهای دولتی به اسمِ TFL منتشر کرده بود که کارش جمع‌آوریِ داده‌های حمل‌ونقلیه.
پس منبعِ این داده ها معتبر به نظر میرسه. دومین کار اینه که بفهمیم چرا تجربه‌های شخصی گاهی با آمار همخونی ندارن.
توی مثالی که زدیم، کلیدِ حلِ معما مفهومِ میانگینه. فرض کنیم از یکی از خطهای مترو هر روز 10 تا قطار عبور میکنه. یکی از این قطارها هزارتا مسافر داره، در حالی که اون 9تای دیگه کلاً هیچ مسافری ندارن. میانگینِ مسافرای هر قطار توی این خط معادلِ 100 نفر میشه، که به میانگینِ متروی لندن خیلی نزدیکه. پس آمارِ TfL دروغ نبوده، ولی بیانگرِ تجربه‌های شخصیِ مسافرایی که توی قطارای شلوغ رفت‌وآمد میکردن هم نبوده.
توی این مثال، هم آمار و هم تجربه‌های شخصی معتبر و درست بودن. اما بعضی وقتا یکی از این دوتا کاربردی ترن.
معمولاً زمانی داده‌های آماری بَرنده‌ان که مربوط به مسائلِ مرتبط با سلامتی باشن، چون توی آمار، هرقدر جمعیتِ آماری بزرگتر باشه، نتیجه معتبرتره. مثلاً سیگار کشیدن به هر حال شما رو 16 برابر بیشتر در معرضِ سرطانِ ریه قرار میده، ولو اینکه مادربزرگِ 90 ساله‌ی شما که یه سیگاریِ قهاره، سالم و سرحال باشه.
اما بعضی وقتا آمارا دروغم میگن، به خصوص وقتی که قرار باشه عملکردِ کسی رو ارزیابی کنن. آدما زمانی که پای منافعِ شغلی یا مالی‌شون درمیون باشه، بیشتر در معرضِ دستکاری و جعل و تحریفِ داده‌ها قرار میگیرن، بنابراین، قضاوتِ مورد به موردِ عملکردها بر آمار و ارقام ارجحیت داره.
بنابراین برای فهمِ حقیقت، باید بدونیم چه وقتایی آمار مناسبه، چه وقتایی تجربه‌ی شخصی و چه وقتایی هردو.
============================================
دقت کنید ببینید هر آمار دقیقاً چه چیزی رو اندازه میگیره.
اواخرِ دهه‌ی 2010، بحرانِ مرگ‌ومیرِ نوزادان بریتانیا رو فرا گرفت. آمارهای اولیه از این مرگ‌ومیرها خیلی با هم اختلاف داشت و اوایل، کسی علتشو نمیدونست.
در نهایت معلوم شد که این اختلافها به خاطرِ تعریفهای متفاوتی بوده که از مرگ‌ومیرِ نوزادان وجود داشته. یعنی مثلاً مشخص نبود آیا نوزادایی که توی 22 یا 23 هفتگی به دنیا میان رو باید سقطِ جنین محسوب کرد یا مرگِ نوزادِ متولد شده. توی لندن، این زایمانها رو تحتِ عنوانِ سقطِ جنین ثبت میکردن، در حالی که توی شهرهای دیگه، اونا رو مرگِ زودهنگامِ نوزادِ زنده میدونستن. همین اختلاف در تعریف کافی بود تا نرخِ مرگ‌ومیرِ نوزادا از لندن تا شهرهای دیگه این همه تفاوت داشته باشه.
این ماجرا اهمیتِ تعریف و معنای واژه‌ها رو به ما گوشزد میکنه. چیزی مثلِ مرگ‌ومیرِ نوزادان اندازه‌گیریش به نظر ساده میاد: کافیه آمارِ نوزادایی که میمیرن رو دربیاریم. اما اگه یه کم دقیقتر بشیم، میبینیم که این مفهوم واضح نیست چون فرقِ بینِ جنین و نوزاد پیچیده‌‌ست و به شدت محلِ اختلافه.
توی حوزه‌ی آمار، که کلاً درباره‌ی اندازه‌گیری و شمارشِ چیزهاست، این مسأله خیلی مهمه. ولی ما وقتی که آماری رو میبینیم، خیلی به ندرت برامون سؤال پیش میاد که این آمار دقیقاً چه چیزی رو شمرده یا اندازه گرفته.
به این ادعا دقت کنید: «بچه هایی که بازیهای کامپیوتریِ خشن انجام میدن توی واقعیت هم بیشتر مستعدِ خشونتن.» اصلاً معلوم نیست این ادعا چی رو اندازه گرفته. مثلاً، بازیِ خشنِ کامپیوتری دقیقاً به چه چیزی میگیم؟ این بچه‌هایی که مستعدِ خشونتن، چند بار یا چند ساعت در طولِ روز بازیهای کامپیوتری انجام میدن؟ و اصلاً، محققا دقیقاً چجوری خشونت رو اندازه‌گیری میکنن؟
ابهاماتی که توی تعریفها وجود داره خوراکِ کساییه که میخوان حقایق رو تحریف کنن و فرضاً دیدگاهِ سیاسیِ خاصی رو پیش ببرن.
مثلاً سالِ 2017، یکی از گروههای طرفدارِ برگزیت (Brexit) طرحِ ممنوعیتِ پنج‌ساله‌ی مهاجرتِ افرادِ بی‌مهارت رو پیشنهاد کرد. حالا سؤال اینجاست که منظور از افرادِ بی‌مهارت دقیقاً چیه؟ توی این طرح، این کلمه به معنای تمامِ کساییه که حقوقشون کمتر از 35 هزار پونده. در نتیجه، اکثرِ پرستارا، معلمای مدارسِ ابتدایی، کارشناسای حقوق، و داروسازها حقِ مهاجرت نداشتن. چه شما طرفدارِ این طرح باشید یا مخالفِ اون، در هر صورت وقتی که تعریفِ دقیقِ «افرادِ بی‌مهارت» رو بدونید، میتونید بفهمید که دقیقاً چه کسایی مشمولِ این طرح میشن و چه کسایی نمیشن.
پس حواستون باشه که هر وقت با ادعایی روبرو شدید، قبل از اینکه اونو قبول یا تکذیب کنید، تعریفِ واژه‌هایی که توش بکار رفته رو زیرِ سؤال ببرید. اگه جایی دیدید یا شنیدید که نابرابری افزایش پیدا کرده، اول از همه بپرسید: نابرابریِ چی؟
=============================================
قبل از نتیجه‌گیری از هر ادعایی، اونو توی زمینه مناسبش بررسی کنید
آوریلِ سالِ 2018، تیترهای نگران‌کننده‌ای توی روزنامه‌های لندن به چشم میخورد که همه‌شون یه مضمونِ واحد داشتن و اون اینکه: میزانِ قتل توی لندن برای اولین بار از میزانِ قتل توی نیویورک بیشتر شد!
صرفِ نظر از اینکه تعریفِ قتل توی هر شهر و کشوری فرق میکنه، این ادعا از جهاتی درست بود. توی آوریلِ 2018، چهارده قتل توی شهرِ نیویورک اتفاق افتاده بود، در حالی که این میزان توی لندن 15 مورد بود.
خب، چه نتیجه ای میشه از این آمار گرفت؟ راستش، هیچ نتیجه ای نمیشه گرفت. اعداد به تنهایی معنای خاصی ندارن. برای اینکه بفهمیم توی دنیا دقیقاً چه اتفاقی داره میفته، باید بافت و چشم‌اندازِ وسیعتری رو در نظر بگیریم.
بیاید از لحاظِ تاریخی قتلهای لندن و نیویورک رو باهم مقایسه کنیم. سالِ 1990، توی لندن 184 قتل اتفاق افتاد، که این میزان توی آمریکا بیش از ده برابر بود، یعنی 2262 مورد. از اون زمان به بعد، میزانِ قتل توی هر دو شهر کاهش پیدا کرده. سالِ 2017، توی لندن در مجموع 130 مورد قتل اتفاق افتاد و توی نیویورک 292 مورد. این یعنی اوضاع توی هر دوتا شهر خیلی بهتر شده بود.
وقتی از این منظر به قضیه نگاه کنیم، میبینیم که اوضاع در مجموع نه تنها بدتر نشده، بلکه بهتر هم شده. چون نیویورک الآن خیلی امن‌تر از گذشته‌است،‌ نرخِ قتلش گاهی وقتا از لندن هم پایین‌تر میاد. پس لندن یهویی تبدیل به شهرِ جانیا و گانگسترا نشده، بلکه آمارِ قتلِ نیویورک خیلی پایین اومده. و در کل، هر دو شهر از چیزی که در گذشته بودن امن‌تر شدن.
متأسفانه جوِ حاکم بر اخبار جوریه که با بیانِ هیجانی و گزینشیِ خبرها دیدِ انسانو محدود و تنگ میکنه. تصور کنید آماری که توی اخبار ارائه میدن بر اساسِ یک بازه‌ی 25 ساله باشه. اون وقت چی میشه؟ شاید اونوقت گزارشهایی بشنوید درباره‌ی گسترشِ چشمگیرِ اینترنت یا ظهورِ چین به عنوانِ یه قدرتِ جهانی، نه آمارِ قتل توی لندن و نیویورک اونم توی یه بازه‌ی یک ماهه.
پس وقتی مقیاسهای زمانیِ بزرگتری رو در نظر بگیریم، معنای واقعیِ آمار رو درست‌تر متوجه میشیم.
یکی دیگه از راههای مفید برای درکِ درستِ آمار، مقیاسهای عددیِ بزرگتره.
مثلاً هزینه‌ی دیوارِ مرزی‌یی که دونالد ترامپ میخواست بینِ آمریکا و مکزیک احداث کنه رو در نظر بگیرید: 25 میلیارد دلار. در ظاهر، این عدد بزرگ به نظر میرسه. اما در مقایسه با کلِ بودجه‌ی دفاعیِ آمریکا که سالانه نزدیکِ 700 میلیارد دلار، یا روزانه حدودِ 2 میلیارد دلاره، میبینیم که هزینه‌ی این دیوار فقط بودجه‌ی دفاعیِ دو هفته از این کشور رو به خودش اختصاص میده، بلکه هم کمتر.
البته ممکنه بازم با خودتون بگید هزینه‌ی این دیوار یا میزانِ قتل توی لندن نگران‌کننده ست. اما به هر حال توجه به بافتِ کامل باعث میشه اشرافِ بیشتری به واقعیت پیدا کنید.
======================================================
حتی تحقیقاتِ علمی هم میتونه تحتِ تأثیرِ سوگیریها و پیش‌داوری‌ها‌ قرار بگیره.
تا حالا درباره‌ی آزمایشِ غرفه‌ی مربّا که دوتا روانشناس به اسمهای شینا آینگر (Sheena Iyengar) و مارک لپر (Mark Lepper) انجام دادن چیزی شنیدید؟ توی این آزمایش، محققا یه غرفه‌ی مربّافروشی برپا کردن که بعضی وقتا 24 مدل و بعضی وقتا 6 مدل مربا برای چشیدن جلوی مشتری میذاشتن. بعد از اینکه مشتریا مربا رو میچشیدن، بهشون بُنِ تخفیف میدادن تا با قیمتِ پایینتری مربای دلخواهشون رو بخرن. زمانی که ویترینِ مغازه بزرگتر بود، مشتریای بیشتری جذب میشدن. اما فقط سه درصدشون اقدام به خریدِ مربا کردن. ولی وقتی که ویترینِ غرفه جمع‌وجورتر شد، 30 درصدِ مشتریا مربا خریدن. این روانشناسا نتیجه گرفتن که مردم وقتی گزینه‌های انتخابی‌شون محدودتر باشه بهتر واکنش نشون میدن و وقتی که انتخابهای بیشتری داشته باشن بد عمل میکنن.
این تحقیقات بعد از انتشار، زبانزدِ خاص و عام شد. طوری که شما میتونید نتایجِ اون رو همه‌جا ببینید، از نشریه‌های روانشناسی گرفته تا سخنرانی‌های تِد (TED). اما آیا واقعاً این نتایج قابلِ اعتماده؟
راستش، نتایجِ این تحقیقات اونقدرا هم که محققهاش ادعا میکنن قطعی نیست. مقالاتی که درباره‌ی مسأله‌ی انتخاب منتشر شده‌ن اکثراً گویای اینن که گزینه‌های متعدد میتونه روی انتخابِ ما تأثیرِ شدیداً مثبت یا شدیداً منفی بذاره. اما مقالاتِ منتشرنشده‌ای که در این باره وجود داره اکثراً تعددِ گزینه‌ها رو بی‌تأثیر میدونن.
شاید حتی فکر کردن به این واقعیت باعثِ دلسردی‌تون بشه، اما حقیقت اینه که انتشاراتِ آکادمیک هم همونقدر در معرضِ سوگیری قرار دارن که اخبارِ روزانه.
مفهومی وجود داره به اسمِ «سوگیریِ انتشار»، به این معنا که نشریه‌ها غالباً تحقیقاتی رو منتشر میکنن که نتایجشون غافل‌گیرکننده و غیرمنتظره باشه، و نتایجِ معمولی رو از قلم میندازن. هرچی باشه، هیچکس دلش نمیخواد توی این نشریه‌ها تحقیقاتی رو بخونه که نتایجشون یکنواخت و کسل‌کننده باشه.
ضمناً، شغل و درآمدِ خیلی از محققا وابسته به انجام و انتشارِ تحقیقاته. و این انگیزه‌ی قدرتمندیه برای اونا تا داده ها رو به نحوی دستکاری کنن که جذابتر و چشمگیرتر از واقعیت به نظر بیاد. بنابراین، علومِ اجتماعی به نظر میاد با «بحرانِ تکرارپذیری» دست‌به‌گریبون باشه، چون تعدادِ زیادی از تحقیقات و آزمایشهای برجسته قابلیتِ تکرارشوندگی ندارن.
پس تا زمانی که این مشکل حل نشده، بهتره به جای اینکه نتایجِ یه پژوهشو در بوق و کَرنا کنیم، اول از موثق بودنش مطمئن بشیم. اول از همه، نگاه کنید ببینید آیا این نتایج با عقلِ سلیم جور در میاد؟ یا نه، چندان معقول و نرمال به نظر نمیرسه؟ بعد بررسی کنید ببینید با نتایجِ تحقیقاتِ دیگه ای که در همین زمینه انجام شده مطابقت داره یا نه. همین گامهای ساده بهتون کمک میکنه تا از انتشارِ اطلاعاتِ غلط یا گمراه‌کننده خودداری کنید.
============================================
آمار و اطلاعات همیشه به دردِ همه نمیخورن
تحقیقاتِ زیادی وجود داره که نشون میده آدما برای اینکه همرنگِ جماعت بشن فشارِ زیادی رو تحمل میکنن.
در دهه‌ی 1950، روانشناسی به اسمِ سالومون اَش (Solomon Asch ) طیِ یک آزمایش، به سوژه‌هاش دوتا تصویر نشون داد: اولی تصویری از سه تا خط با طولهای متفاوت بود، و دومی، تصویری از یه خطِ معیار بود. تنها کاری که این دو نفر باید میکردن این بود که تشخیص بدن کدوم‌یکی از این سه خطی که توی تصویرِ اولی وجود داره هم‌اندازه‌ی خطِ معیار توی تصویرِ دومه.
منتها یه نکته‌ای وجود داشت: سوژه‌ها وسطِ سیاهی‌لشکر گیر افتاده بودن. یعنی کسایی اونجا بودن که عمداً گزینه‌ی نادرست رو انتخاب میکردن تا سوژه‌های اصلی رو به اشتباه بندازن. سوژه‌ها هم، از همه جا بیخبر، تحتِ تأثیرِ انتخابِ اشتباهِ اطرافیانشون قرار میگرفتن و با طنابِ اونا به چاه میرفتن.
این جور آزمایشها خیلی جالب و جذاب به نظر میرسه. اما نمیتونیم اینطور نتیجه بگیریم که آقای اَش یه حقیقتِ کلی رو درباره‌ی ذاتِ انسانها کشف کرده، چونکه جامعه‌ی تحقیقاتیِ این روانشناس محدود بود و فقط دانشجوهای آمریکاییِ سفیدپوستِ مذکرِ دهه‌ی 1950 رو در بر میگرفت.
اخیراً روانشناسا به این مشکل، یعنی محدود بودنِ جامعه‌ی آماریِ تحقیقاتشون آگاهی پیدا کرده‌ن. اکثرِ این آزمایشها و پژوهشها، جامعه‌ی آماری‌شون محدود به کشورهای پیشرفته‌ و صنعتیِ غربه.
حالا آیا این معناش اینه که نتایجِ تحقیقاتِ آقای اَش نامعتبره؟ تا سالِ 1996، 133 پژوهشِ دیگه در تکمیلِ این تحقیقات شکل گرفت. اکثرِ این تحقیقاتِ تکمیلی نتایجِ مشابهی رو به دنبال داشتن. اما بعضیاشونم به نتایجِ جالب و متفاوتی رسیدن. مثلاً اینکه آدما بیشتر تمایل دارن همرنگِ دوستا و آشناهاشون بشن تا غریبه‌ها، یا اینکه زنها بیشتر از مردا به دنباله‌روی و همرنگِ جماعت شدن گرایش دارن.
توی تحقیقاتِ آکادمیک، رسیدن به نمونه‌ای که نماینده‌ی جامعه باشه، کارِ چندان مشکلی نیست. اما در بقیه‌ی حوزه‌ها، به خصوص توی نظرسنجی‌ها، به دست آوردنِ داده‌های نمادین کارِ‌ سختیه.
مشکلِ اصلیِ نظرسنجیها سوگیریِ نمونه‌هاست، به این معنی که بعضی از افراد بیشتر از بعضی دیگه به پاسخ دادن به نظرسنجی ها تمایل نشون میدن. مشکلِ دیگه مکانِ خاصیه که این اطلاعات و داده‌ها ازش کسب میشن. مثلاً نظرسنجی از کاربرای آمریکاییِ توئیتر چه بسا فقط نماینده‌ی جمعیتِ جوان و تحصیل‌کرده و دانشگاهی باشه، چون این جمعیت بیشتر از بقیه احتمالش هست که از توئیتر استفاده کنن.
پس هر وقت با داده‌های آماری مواجه شدید، این واقعیتها رو هم در نظر بگیرید، و همیشه از خودتون بپرسید: چه کسایی ممکنه توی این نمونه‌ی آماری از قلم افتاده باشن؟ تمامِ تلاشتون رو برای پیدا کردنِ نقاطِ کورِ این تحقیقات به کار بگیرین.
----------------------------------------------------
همیشه احتمالِ نادرست بودنِ داده‌های بزرگ و الگوریتم‌ها رو بدین
وب‌سایتِ گوگل‌فلو ترندز (Google Flu Trends) از همون سالِ تأسیسش یعنی سالِ 2009، خیلی سر و صدا به پا کرد. این وبسایت که متعلق به گوگله ادعا میکرد که داده‌های مربوط به شیوعِ فصلیِ آنفولانزا توی جهان رو به صورتِ آماری ارائه میکنه. این وبسایت عبارتهایی مثلِ «علایمِ آنفولانزا» و «نزدیکترین داروخانه‌ها به من» رو که توی گوگل سرچ شده بود محاسبه میکرد و از این راه، تعدادِ مبتلاهای جدید به آنفولانزا رو با دقتِ زیادی تخمین میزد، حتی سریعتر از نهادهای مسئول.
از خیلی جهات، گوگل فلو ترندز نویدبخشِ یک دورانِ جدید بود، دورانِ الگوریتم‌ها و داده‌های بزرگ. منظور از داده‌های بزرگ اطلاعاتیه که ما موقعِ گشت‌وگذار توی اینترنت، پرداخت با کارتهای بانکی یا استفاده از گوشی‌های همراه از خودمون به جا میذاریم. اَلگوریتم‌ها هم برنامه‌های کامپیوتری‌یی هستن که کارشون کشفِ الگوهاییه که پشتِ مجموعه‌داده‌ها وجود داره.
از قرارِ معلوم، گوگل فلو ترندز از داده‌های بزرگ و الگوریتمها استفاده میکرد تا درباره‌ی آنفولانزا داده‌های مفید و دقیقی رو منتشر کنه. اما چهار سال بعد، گوگل اعلام کرد که این پروژه کاملاً شکست خورده. اما چرا؟
این پروژه توی یه زمستون، از کار افتاد و سوخت. طراحای پروژه دلیلش رو ورشکستگی اعلام کردند، ولی ورشکستگی‌یی در کار نبود. طبقِ برآوردهای این سایت، ابتلا به آنفولانزا دو برابر بیشتر از اون چیزی بود که نهادهای رسمی مثلِ سی.دی.سی (CDC) منتشر کرده بودن.
خب، مشکل کجا بود؟ مشکل اینجا بود که گوگل واقعاً نمیدونست چه ارتباطی بینِ عبارتهای سرچ شده با شیوعِ آنفولانزا وجود داره. الگوریتمِ این پروژه هم مثلِ همه‌ی الگوریتم‌های دیگه دنبالِ کشفِ الگوهای موجود توی داده‌ها بود، اما چیزایی رو با آنفولانزا مرتبط دونسته بود که هیچ ربطی به این بیماری نداشتن. در نتیجه، این الگوریتم به جای اینکه آمارِ آنفولانزا رو دربیاره، بیشتر آمارِ فصلِ زمستون و هرچیزی که مربوط به این فصل بود رو در میاورد. برای همین، نتونست شیوعِ آنفولانزای تابستانه رو که سالِ 2009 اتفاق افتاد برآورد کنه.
البته، در بعضی موارد بهتره به الگوریتم‌ها بیشتر از انسانها اعتماد کنیم. مثلاً شواهدِ زیادی هست که نشون میده قضاوتِ انسانها برای محکوم کردنِ مجرمین، معمولاً هیچ‌وقت صددرصد بی‌طرفانه یا برابرانه نیست. در حالی که الگوریتم‌ها برای صدورِ حکم و مجازات خیلی بهترن، چون پرونده‌های فعلی رو با پرونده‌های مشابهِ گذشته مقایسه میکنن و بعد حکم صادر میکنن.
گاهی وقتا الگوریتمها نتایجِ دقیق و باکیفیتی میگیرن و گاهی وقتا نه. برای همین، ما باید هر الگوریتمی رو جداگانه قضاوت کنیم و دقتِ نتایج رو به همه‌‌ی الگوریتمها تعمیم ندیم. البته این کار، کارِ مشکلیه، چون خیلی از شرکتها موتورهایی دارن که براشون درآمدزاست و دوست ندارن راز و رمزها و الگوریتمهای پشتِ این موتورها رو لو بدن. اما اگه الگوریتمها پشتِ دیوارِ شیشه‌ای قرار بگیرن تا همه بتونن اونا رو ببینن، خیلی بهتر میتونیم بفهمیم که تصمیماتی که دارن میگیرن بر چه اساسیه و چطور میتونن پیشرفت کنن.
اهمیت و کاربردِ آمارهای رسمی رو دستِ کم نگیرین
اداره‌ی بودجه‌ی کنگره‌ی آمریکا سالِ 1974 توی آمریکا تأسیس شد تا هزینه‌های مربوط به طرحهای دولتی رو به کنگره گزارش بده. طبقِ گفته‌ی یکی از مسئولای این اداره، هر طرحی بلافاصله هزینه‌هاش محاسبه و ثبت میشه و برای همین، این گزارشها بی‌طرفانه‌ست و هیچ شک و شبهه‌ای توش نمی‌مونه.
اما همه‌ی رئیس‌جمهورای آمریکا نظرِ مساعدی به برآوردهای این اداره ندارن. اولین رئیس جمهورِ منتقدِ این گزارشها، جیمی کارتر بود که دنبالِ افزایشِ بهره‌وریِ انرژی در آمریکا بود. اداره‌ی بودجه‌ی کنگره، طرحهای پیشنهادیِ کارتر رو ارزیابی کرد و به این نتیجه رسید که اونطور که باید و شاید جواب نمیدن. دولتِ کارتر از اینکه این اداره با اونا همکاری نمیکرد ناراحت بود. اما نکته دقیقاً همین بود: بهترین سازمانهای دولتی اونایی هستن که آمارو دقیق منتشر میکنن، خواه سیاستمدارا ناراحت بشن خواه خوشحال.
زمانی که سیاستمدارا و مسئولین در صدد برمیان تا کارِ نهادهای آماری رو تحریف کنن یا اعتبارشون رو زیرِ سؤال ببرن، ممکنه فاجعه رخ بده.
به مثالِ یونان توجه کنید. آمارهای رسمیِ این کشور در اوایلِ دهه‌ی 2000 اصلاً قابلِ اعتماد نبود. یونان برای اینکه توی منطقه‌ی یورو بمونه، مجبور بود کسریِ بودجه‌شو زیرِ سه درصد از تولیدِ ناخالصِ داخلیش نگه داره. این کار با استفاده از روشهای متعارف غیرممکن بود. برای همین مقاماتِ یونان تصمیم گرفتن آمارو یه خُرده دستکاری کنن تا یه چند میلیارد یورو از سروتهِ قرضهایی که از این‌ور و اون‌ور گرفته بودن بزنن.
این دستکاری‌های آماری سالِ 2009 برملا شد. وسطِ بحرانِ اقتصادی، اتحادیه‌ی اروپا متوجه شد که پولایی که یونان قرض گرفته خیلی بیشتر از اون مبلغیه که خودش اذعان کرده، و تازه، از پس‌دادنِ این مبلغ هم ناتوانه. و این جوری بود که اقتصادِ یونان خیلی زود فروپاشید.
وجودِ نهادهای بی‌طرفی که آمار منتشر کنن، نشونه‌ی صداقتِ یک کشوره. اما مزایای دیگه ای هم داره که به هزینه‌ش میرزه.
برای مثال، بریتانیا تحلیلی درباره‌ی دخل و خرجها انجام داده بود که نشون میداد داده‌های مربوط به سرشماریِ ملی توی تمامِ زمینه‌ها میتونه مفید باشه، از سیاستهای مربوط به «مستمری» بگیر تا ساختِ مدارس و بیمارستانها در مناطقِ موردِ نیاز. به علاوه، این امکان رو به بقیه‌ی سازمانها هم میداد تا تمامِ آمارهای سرانه‌ی خودشون رو بتونن محاسبه کنن.
متأسفانه، این تحلیل نتونست ارزشِ مالیِ تمامِ محاسباتِ آماری رو برآورد کنه، اما برآوردش این بود که منافعِ این محاسبات حداقل چیزی حدودِ 500 میلیون پوند در ساله. خودِ سرشماری کمتر از این مقدار هزینه‌ بر میداره و تا ده سال هم به کار میاد و در نتیجه، با یه سرمایه‌گذاریِ اولیه، ده برابر سود حاصل میکنه. اگه دولتها بخوان مشکلاتِ کشور رو حل کنن، باید بر اساسِ آمارِ درست و دقیق پیش برن، و بهترین کار، استفاده از آمارهای رسمیه.
--------------------------------
فریبِ نمودارها و چارتهای پرزرق و برق رو نخورید
دیوید مک‌کندلس (David McCandless) نویسنده‌ی کتابِ اطلاعات زیباست، انیمیشنِ فراموش‌نشدنی و تماشایی‌یی ساخته به اسمِ دتریس (Debtris). توی انیمیشنِ دتریس هم درست مثلِ بازیِ کامپیوتریِ تتریس (Tetris) یا همون خونه‌سازی، قطعاتِ رنگیِ بزرگی رو میبینیم که از آسمون پایین میان. اندازه‌ی هر کدوم از این قطعات نشون‌دهنده‌ی هزینه‌های مختلفه، از جمله بودجه‌ی سازمانِ ملل، هزینه‌ی جنگِ عراق در سالِ 2003، و درآمدِ فروشگاهِ زنجیره‌ایِ والمارت.
موسیقیِ گیرا و گرافیکِ رنگارنگ و جانماییِ آهسته‌ی هر قطعه، همه با هم به زیباییِ هرچه بیشترِ این انیمیشن کمک کرده‌ن. اما متأسفانه، همین زیبایی‌ها باعث شده تا خیلی از ایراداتی که توی داده‌های این انیمیشن وجود داره از چشممون پنهون بمونه.
گاهی وقتا، داده‌های آماری جلوه‌ی زیبایی دارن، اما اطلاعاتِ که پشتِ اونها هست زشته. همین اشکال توی دتریس هم وجود داره و اشکالاتِ متعددی بهش وارده. برای مثال، ارزشِ خالص با ارزشِ ناخالص خَلط شده. مثلِ این می‌مونه که سودِ یه کارخونه رو با گردشِ مالیش بخوایم مقایسه کنیم.
با توجه به مشکلاتی که توی انیمیشنِ دتریس وجود داره، آیا باید هر نوع داده‌ای که رنگ‌ولعابِ زیبایی  داره رو رد کنیم؟ نه لزوماً اینجوری نیست. گاهی وقتا، میشه بینِ دقت و زیبایی تعادل برقرار کرد. نمونه‌ش، کارهای فلورِنس نایتینگله (Florence Nightingale)، شخصیتِ افسانه‌ای‌یی که امروز اونو به عنوانِ بنیانگذارِ پرستاریِ مدرن میشناسن.
یکی از تخصصهای نایتینگل آمار بود. سالِ 1858، چیزی رو اختراع کرد که معروفه به دیاگرامِ رُز. هدفِ خانمِ نایتینگل از خلقِ این دیاگرام این بود که ثابت کنه اقداماتِ بهداشتی میتونه تعدادِ مرگ‌ومیرِ بیماریهای واگیر رو کاهش بده. او زمون، دانشمندا نمیدونستن که رعایت نکردنِ مسائلِ بهداشتی میتونه به انتشارِ ویروسها و میکروبها کمک کنه.
دیاگرامِ رُز شبیهِ دوتا گلِ رُزِ کنارِ هم طراحی شده بود. یکی از اونا نشون‌دهنده‌ی بیماریها و مرگ‌ومیرها قبل از رعایتِ بهداشت بود و یکی دیگه مربوط به بعد از رعایتِ بهداشت. این نمایشِ مقایسه‌‌وار باعث شد تا میزانِ مرگهایی که با رعایتِ بهداشت میشد ازشون پیشگیری کرد چشمِ هر بیننده‌ای رو خیره کنه. این دیاگرام باعث شد دکترهایی که نسبت به اقداماتِ بهداشتیِ نایتینگل مردّد بودن مجاب بشن، و در نتیجه، قوانینِ سلامتِ جمعی نهایتاً به تصویب برسن.
برای اینکه در دامِ نمودارها و جدولهای غلط‌انداز گرفتار نشیم، بهتره ببینیم با دیدنشون چه واکنشِ احساسی‌یی در ما برانگیخته میشه. بعد از اینکه به این احساسات توجه کردیم، باید مطمئن بشیم که داده‌هایی که این نمودارها دارن ارائه میکنن رو واقعاً فهمیده‌یم. باید ببینیم معنای محورها چیه، چه چیزایی به شمارش دراومدن، و چه آزمایشهایی توی این نمودارها بررسی شده. حواستون باشه که ممکنه طراحِ این نمودارها خواسته باشه شما رو به چیزی متقاعد کنه، که البته به خودیِ خود هیچ مشکلی نداره، اما باید حواستون باشه که گمراه نشید.
-----------------------------------------
همیشه ذهنتون رو باز نگه دارید و در دیدگاههاتون تجدیدِ نظر کنید
فیلیپ تتلاک (Philip Tetlock) یه روانشناسِ متولدِ کانادا بود که به همراهِ گروهی از جامعه‌شناسا برای پیشگیری از جنگِ هسته ای بینِ آمریکا و شورویِ سابق تلاش میکردند. برای این منظور، تتلاک با کلّی متخصص مصاحبه کرد تا نظرِ اونا رو راجع به تمامِ اتفاقاتِ احتمالیِ آینده جویا بشه.
ولی از اینکه میدید متخصصای رشته‌های مختلف موقعِ مواجهه با ادلّه‌ی مخالف،‌ همچنان با لجبازی به عقیده‌ی خودشون میچسبن، حسابی پکر شد. خیلی از اونا به آب و آتیش میزدن تا پیش‌بینی‌های غلطی که در گذشته کرده بودنو توجیه کنن. برای همین، یه تحقیقاتِ زیرکانه‌ای انجام داد تا به وضوح ثابت کنه که این افراد چقدر توی پیش‌بینی‌هاشون افتضاح عمل میکنن.
برای این کار، تتلاک 27500 پیش‌بینی رو از 300 کارشناس و متخصص در زمینه‌های سیاست، ژئوپولِتیک، و اقتصاد جمع‌آوری کرد و سؤالای شفافی رو مطرح کرد که بررسیِ صحت و سُقمشون در آینده آسون بود. و بعد، 18 سال برای رسیدن به نتیجه صبر کرد.
سالِ 2005، تتلاک بالاخره نتایجِ خودشو منتشر کرد. خلاصه‌ش این بود که متخصصا توی پیش‌بینیِ آینده افتضاح بودن. اونا دچارِ اعتماد به نفسِ کاذب بودن، پیش‌بینی‌هاشون غلط از آب در میومد و حتی خیلی از پیش‌بینی‌های خودشون رو هم درست به یاد نمی‌آوردن. و تا آخرین لحظه ادعا میکردن که حق با اوناست، در حالی که نتایج نشون میداد که اشتباه کرده‌ن.
آیا این به اون معناست که جهان زیادی پیچیده‌ست و پیش‌بینیش غیرممکنه؟ تتلاک همچین عقیده ای نداشت. برای همین کمرِ همت به انجامِ یه آزمایشِ دیگه بست تا پیش‌بینی‌های 20 هزار فردِ متخصص و غیرمتخصص رو جویا بشه.
جالبترین نتیجه‌ای که از این آزمایشِ دوم گرفت این بود که عده ای از افراد هستن که بهتر از دیگران پیش‌بینی میکنن. البته پیش‌بینی‌هاشون بی‌نقص نیست اما از حدِ معمول بهتره. از طرفی، این افراد هم به مرورِ زمان قدرتِ پیش‌بینی‌شون افزایش پیدا کرده بود و این طور نبود که از همون اول پیش‌بینی‌هاشون به هدف بخوره.
تتلاک اسمِ این گروه رو گذاشته بود «اَبَرپیش‌بین‌ها». این دسته چندتا ویژگیِ مشترک داشتن. اما شاید مهمترینِ اونا فکرِ روشن و بازشون بود. به عبارتِ دیگه، اَبَرپیش‌بینها توی پیش‌بینی‌هاشون تعصب و لجبازی به خرج نمیدادن و از اینکه دیدگاههاشونو با شواهدِ جدید وفق بدن خوشحال میشدن.
تحقیقاتِ تتلاک ثابت کرد که اشتباهاتی که ما توی پیش‌بینی‌های آماری مرتکب میشیم، بیشتر از اینکه ناشی از دانشِ ناکافیِ ما باشه، به خاطرِ اینه که از پذیرشِ‌ داده‌ها سرباز میزنیم. پس همیشه سعی کنید ذهنتون رو باز بذارید. ذهنِ باز در کنارِ دانشِ آماریِ موثّق، باعث میشه تا شناختتون از دنیا خیلی واضحتر و شفافتر بشه.


خلاصه صوتی کتاب کارآگاهِ داده‌ها

برای دسترسی دائمی به خلاصه صوتی کتاب کارآگاهِ داده‌ها و تمام 365 کتاب‌ (از طریق اپلیکیشن و کانال تلگرام)، کافیه یک بار اشتراک 365 بوک رو دریافت کنید. این کتاب‌ها به شما کمک میکنن در تمام زمینه‌های زندگی، اطلاعات و مهارت کسب کنید و روز به روز پیشرفت کنید.
پیشنهاد ما اینه که از زمان‌های مرده (موقع رانندگی، آشپزی و ...) استفاده کنید و روزی به یک خلاصه کتاب گوش کنید.
راستی، ما برای خلاصه صوتی مجموعه 365 کتاب‌ خودمون، یک مبلغ کوچیک دریافت می‌کنیم که صرف هزینه‌های 365 بوک میشه و به معنای حمایت شما از این پروژه هست.

خلاصه کتاب های مشابه « کتاب کارآگاهِ داده‌ها »

دیدگاه خود را بنویسید

  • {{value}}
این دیدگاه به عنوان پاسخ شما به دیدگاهی دیگر ارسال خواهد شد. برای صرف نظر از ارسال این پاسخ، بر روی گزینه‌ی انصراف کلیک کنید.
دیدگاه خود را بنویسید.
کمی صبر کنید...