روزنوشت

درک من از خودم و محیط اطراف

روزنوشت

درک من از خودم و محیط اطراف

روزنوشت

دنیا فرصت کوتاهی است برای کشف کردن...

آخرین نظرات

پیش نوشت: اگر کمی از مقدمات علم آمار می‌دانید احتمالاً این نوشته برای شما ارزش افزوده‌ای نخواهد داشت و پیشنهاد می‌کنم وقت صرف خواندن آن نکنید.


اگر از شما بپرسند در 6 پرتاب یک سکه، چند بار شیر می‌افتد و چندبار خط، چه جوابی می‌دهید؟ ممکن است شنیده باشید احتمال هریک از رویدادها در یک توزیع برنولی نااریب مثل سکه 1/2 است، پس احتمالاً در 6 بار پرتاب 3 بار شیر و 3 بار خط ظاهر می‌شود.

حالا یک سکه بردارید و آزمایش کنید. 6 بار سکه راپرتاب کنید. نتیجه چه شد؟ با پیش‌بینی ما تفاوت داشت؟ چرا اینطور شد؟

علم آمار و احتمال یک پیش فرض اساسی دارد، آن هم زیاد بودن تعداد نمونه مورد بررسی است. در واقع وقتی می‌گوییم احتمال خط آمدن در سکه 1/2 است، منظور این است که در تعداد زیادی از پرتاب سکه احتمالاً نیمی از پرتاب‌ها خط و نیمی شیر را نشان خواهند داد. در واقع هرچه قدر تعداد دفعات پرتاب زیاد شود، تعداد پرتاب‌هایی که شیر را نشان میداند به سمت 1/2 کل پرتاب‌ها میل خواهد کرد. این همان چیزی است که به نام قانون اعداد بزرگ (the law of large numbers) شناخته می‌شود. 

در واقع با استناد به آمار و احتمال هرگز نمی‌توان برای یک مشاهده پیش‌بینی نزدیک به واقعیت کرد و تنها زمانی می توان به آمار و نتایج به دست آمده از آن اطمینان کرد که با تعداد زیادی نمونه مواجه باشیم. این اصل زیر بنای بسیاری از کسب و کارها از جمله شرکت‌های بیمه است. یک شرکت بیمه هرگز نمی‌داند آیا یک بیمه‌گذار مشخص دچار خسارت می‌شود یا نه. پس چگونه حاضر می‌شود ریسک خسارت آن را بپذیرد؟ چرا که با تکیه بر قانون اعداد بزرگ می‌تواند پیش‌بینی کند که در یک پرتفوی چند هزار نفری از بیمه گذاران چند درصد دچار خسارت خواهند شد و نهایتاً چه میزان باید در مجموع خسارت پرداخت کند، بنابراین دریافت چه میزان حق بیمه، از هریک از بیمه گذاران این پرتفوی، جوابگوی خسارت احتمالی و هزینه‌ها و سود مورد انتظار شرکت بیمه خواهد بود.


چرا همه نیاز دارند این مفهوم را بدانند؟

اولاٌ، ذهن ما در نتیجه‌گیری‌های عمومی و تعمیم مشاهدات خود به علم آمار توجهی ندارد. 

دوماٌ ذهن ما گاه در قضاوت و شناخت محیط و اطرافیان در زندگی روزمره بیش از حد به  نتایج آماری توجه دارد. 


مورد اول همان خطای شناختی تمرکز بر اطلاعات در دسترس (Availability Bias) است. در فایل‌های صوتی محمدرضا هم بسیار شنیده‌ایم که روزگاری با توجه به شرایط زندگی انسان و عدم دسترسی به نمونه‌های کافی برای انسان یک برتری محسوب می‌شده است. مثلاً انسان در مواجهه با یک خرس که یک انسان را می‌خورد نمی‌توانسته، نتیجه گیری خود را در مورد آدم خواری خرس‌ها به بعد از بررسی و تحقیق درباره تمام خرس‌های یک جنگل موکول کند. احتمالاً انسان‌هایی که چنین کرده‌اند، توسط خرس‌ها خورده شده‌اند و نسلشان منقرض شده است و همه ما از نسل انسان‌هایی هستیم که در تعمیم نتیجه‌گیری‌های خود از مشاهدات محدود به کل جهان هستی، درنگ نمی‌کنند. 

اما در جامعه امروز که صحبت از خرس و آدم خواری نیست و دسترسی به نمونه‌های مختلف یا حداقل تحقیق‌هایی فراهم است که پیش از ما این نمونه‌گیری و بررسی را انجام داده‌اند، مراقب بی توجهی‌های ذهنمان به علم آمار در برچسب گذاری و تعمیم مشاهداتمان باشیم.


اما مورد دوم که کمتر به آن توجه داریم این است که حتی بعد از اینکه تحقیق مبسوطی می‌خوانیم مبنی بر این که قدرت تمرکز سگ‌ها بیشتر از گربه‌هاست، نمی‌توانیم در مواجهه با هر گربه و سگی مطمئن باشیم که تمرکز کدام یکی بیشتر است. یا بلافاصله با دیدن یک گربه به او بگوییم از اینکه قدرت تمرکز کمتری نسبت به سگ‌ها داری برات متاسفیم.

تنها روشی که می‌توان با استفاده از آن در مورد یک فرد، یک موضوع و یا یک پدیده خاص اظهار نظر کرد، بررسی، شناخت، درک و تحلیل همان یک شخص، همان یک پدیده و همان یک موضوع خاص است.

در اینجا علم آمار و تحقیقات متنوع نه تنها کمکی به ما نمی‌کنند بلکه ممکن است گمراه کننده هم باشند. علم آمار تنها زمانی که با تعداد زیادی از مشاهدات روبه رو باشیم که بررسی تک تک آن‌ها ممکن نیست، پیش‌بینی نزدیک به واقعیتی در خصوص گروه آن مشاهدات ارائه می‌دهد و نه یک به یک آن‌ها. این پیش‌بینی قطعاً با خطا همراه است و هرچه قدر تعداد نمونه‌ها افزایش پیدا کند این خطا کمتر خواهد شد.

این واقعیت نه تنها درباره تحقیقات روانشناسی و به طور کلی علوم انسانی صحیح است بلکه بسیاری از توصیه‌های پزشکی هم که ما مطلقاً صحیح می‌دانیم، از طریق نمونه‌گیری و قوانین علم آمار استخراج شده‌اند. هرچند میزان خطای قابل قبول در تحقیقات علم پزشکی بسیار کمتر از سایر حوزه‌ هاست اما همچنان نتایج آن‌ها در مورد تمامی بیماران قطعی نیست.

بنابراین دفعه بعدی که بر مبنای مشاهدات خود به یک نتیجه‌گیری کلی می‌رسیم و یا از نتایج یک تحقیق آماری در برچسب گذاری یک شخص یا پدیده استفاده کردیم، حواسمان به محدودیت‌های علم آمار باشد. البته مراقب باشیم در این مورد دچار وسواس نشیم. یک شوخی هم در خصوص این ویژگی علم آمار و احتمال وجود دارد که شاید در انتقال این مفهوم گویاتر باشد. داستان درباره‌ی آتش گرفتن یک سطل آشغال و اقدامات یک شیمی‌‌دان، یک فیزیک‌دان و یک آماردان برای خاموش کردن آن است. فیزیکدان و شیمی‌دان مشغول بحث در مورد این بودند که چه موادی ممکن است در سطل باشند، آیا خطرناک و آتش زا هستند و چگونه می‌توان آن ها را مهار کرد که دیدند آماردان مشغول آتش زدن بقیه سطل‌هاست. وقتی علت رو ازش جویا شدند، جواب داد که به نظرم نمونه کافی برای این بررسی‌های شما نداشته باشیم. :) 


چرا این‌ها را نوشتم؟

جدا از اظهار نظرهای قطعی آزاردهنده‌ای که هر روز بر مبنای یک یا دو تجربه شخصی می‌شنوم که بخشی از انگیزه نوشتن این مطلب شدند، حقیقت اینه که هربار که می‌خواهم از تجربیات روزمره مطلبی اینجا بنویسم و نتیجه‌گیری شخصی خودم را یا یک تعمیم جزئی به محیط بزرگتر بنویسم، آن ذهن آمار دان می‌آد سراغم و می‌گه که: باید سطل‌های بیشتری آتش بزنیم!

برای همین همه این‌ها رو اینجا نوشتم تا خیالش رو راحت کنم که حواسم بهش هست و بعد از این ابتدای این جور نوشته‌ها می‌توانم به این صفحه ارجاع دهم که با علم به این محدودیت‌ها، نتیجه‌گیری خودم را قطعی نمی‌دانم و به اینکه ممکن است شخصی متناسب با تجربیات و اطلاعاتش نظری مخالف من داشته باشد، کاملاً آگاهم.


نظرات  (۳)

۰۳ آبان ۹۶ ، ۰۰:۴۴ محمدصادق اسلمی
سلام شهرزاد عزیز
من که واقعا استفاده کردم و لذت بردم از پستت. اگه خودم محکوم نشم به کافی نبودن نمونه. با تقریب خوبی می‌تونم بگم این روزها بیشتر افراد سعی در تعمیم مشاهدات شخصی خودشون دارن. و مصداقش رو میتونیم همون داستان فیل مولانا بدونیم که هر کسی بر اساس چیزی که لمس کرده نظر میده و میگه اره این که من میگم درسته. در کل امیدوار این ذهن آماری باعث نشه خیلی از چیزا رو اینجا ننویسی و ما از خوندشون محروم بشیم :-).
پاینده باشی
پاسخ:
سلام محمد صادق عزیز
ممنوم اینجا سر زدی و برام نوشتی :) کاملاً درست می‌گی دقیقاً مصداق همون فیل می‌شه. نه دیگه این پست رو نوشتم تا بعد از این با خیال راحت بنویسم :)
شهرزاد با خوندن مطلبی که نوشتی یک سوال برایم پیش آمد.
اگر آمار بگه که افراد قد بلند مدت زمان بیشتری با سازمان ها میمونند (یا وفاداری بیشتری دارند).
آیا اگر صرفا افراد قد بلند را استخدام کنیم، احتمال اینکه افراد انتخابی وافادارتر باشند را افزایش داده ایم؟
پاسخ:
سلام، 
خیلی خیلی ممنونم که سوالت رو برام نوشتی. سعی می‌کنم با دانش خودم این موضوع رو توضیح بدم اما قطعاً متخصصینی خواهند بود که بهتر از من توضیح بدهند.
اگر فرض بگیریم تحقیقی که اشاره کردی دقیق و درسته، جواب می‌شه:  بله، انتخاب از بین افراد بلند قد، احتمال استخدام افراد وفادار رو افزایش می‌دهد. اما افزایش احتمال، به معنی نتیجه قطعی نیست. یعنی ممکنه در واقعیت شما سه فرد بلند قد استخدام کنید که نهایتاً وفاداری شون از میانگین کوتاه قدها هم کمتر باشه و البته ممکنه از میانگین بلندقدها هم بیشتر باشه. تنها می‌دانیم که احتمال آنکه وفاداری آن‌ها بیشتر باشد بیشتر از سایر حالت هاست اما بقیه حالت ها هم غیر ممکن نیست.
در واقع در اینجا با دو مفهوم روبه رو هستیم: 1) احتمال 2) میانگین نتایج واقعی
در کل منظور این است که هرچه تعداد مشاهدات افزایش یابد، میانگین نتایج واقعی به امید ریاضی احتمال نزدیک می‌شه. یعنی اگر تعداد افراد بسیار زیادی از بلندقدها استخدام کنید، با اطمینان بسیاری می‌توانید ادعا کنید که میانگین وفاداری آنها نسبت به کوتاه قدها بیشتر است.
 در واقع در مثال من هم در متن، در تمامی دفعات پرتاپ احتمال شیر آمدن سکه برابر با 1/2 است. اما میانگین نتایج واقعی تنها در تعداد زیادی پرتاب با این 1/2 برابر می شود.

می دانم که موضوع سوال، صرفاٌ یک مثال بوده اما یک بحثی هم وجود دارد در این خصوص که خیلی از داده‌های بی‌ربط اگر صرفاٌ به صورت ریاضی وار بررسی شوند ممکن است به نظر برسد که همبستگی دارند و استفاده کنندگان تحقیق رو دچار سردگمی کنند. مثلاً همبستگی طول قد و وفاداری به سازمان هم می‌تواند از همین نوع همبستگی‌های تصادفی باشد که هرچند از لحاظ آماری معنادار باشد اما لزوماً از لحاظ نظری معنادار نیست و نمی‌توان از نتایج تحقیق آن استفاده کرد.

امیدوارم تونسته باشم توضیح مفیدی بدم.
شهرزاد قبول دارم که بعضی از همبستگی های آماری خیلی بیربط و بی معنی هستند. اما بهرحال وجود دارند. من هم هرچی فکر می کنم مانعی برای استفاده احتمالاتی (برای افزایش احتمال یک رویداد) از این همبستگی ها نمیبینم! نظر تو چیه؟
پاسخ:
نه قضیه اینه که اینا در داده مشاهده می شوند ولی در واقعیت وجود ندارند. از لحاظ ریاضی احتمال اینکه بین دو سری مستقل داده، همبستگی مشاهده بشه وجود داره خصوصاٌ اگر تعداد داده‌ها کم باشه. یا متغیرهایی حذف شده باشند. برای همین باید نتایج همبستگی رو با دقت تفسیر و استفاده کرد. 
البته برای شناسایی این ها هم روش هایی وجود داره که توضیحش اینجا نمی گنجه، اجتمالاٌ با جست و جوی chance correlation , nonsense correlation بتونید پیداشون کنید.

ارسال نظر

کاربران بیان میتوانند بدون نیاز به تأیید، نظرات خود را ارسال کنند.
اگر قبلا در بیان ثبت نام کرده اید لطفا ابتدا وارد شوید، در غیر این صورت می توانید ثبت نام کنید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی