داده های کلان: ماجرای فیلی در اتاق تاریک، چراغ قوه و ما
معرفی کتاب دادههای کلان انقلابی در زندگی کار و تفکر
ماجرا کتاب داده های کلان خیلی ساده است: ما خیال می کنیم همه چیز را در دنیای امروز می دانیم اما در واقع نمی دانیم. به همین ترتیب کتاب داده های کلان کمک می کند بخشی از توهم آگاهی ما به آگاهی حقیقی تبدیل شود. در قیاس با کتاب هایی که صرفا اسم زیبایی دارد، محتوای این کتاب بسیار قابل توجه است و مطالعه آن برای علاقه مندانی با مطالعه حداقلی در این زمینه جالب و سودمند خواهد بود.
به قلم سید محمد یحیی هاشمی
۱- مقدمه
مفهوم داده های کلان یا کلان داده برای بسیاری از ما آشناست. به لطف فناوری های ارتباطی و افزایش اگاهی عمومی و نیمه تخصصی، ما می دانیم که بسیاری از ابرشرکت ها و دولت ها، داده های ما را جمع آوری و استفاده می کنند. هر چند این مسئله گاهی به تئوری های توطئه یا تحلیل های اعجاب انگیز ختم می شود؛ اما مانع از حقیقتی نیست که چرخ دنده های جهان امروز را به حرکت درمیاورد. بدون استفاده از داده ها آن هم در حجم بسیار عظیم، تصور پدیده هایی مثل گوگل ترنسلیت، تبلیغات مجازی، دولت الکترونیک و … تقریبا محال بود. کتاب داده های کلان نوشته ویکتور مایر شونبرگ و کنت کوییر به زیبایی بسیاری از ابعاد داده های کلان را بررسی کرده است. محتوای کتاب نه آنچنان تخصصی است که مطالعه آن تنها از عهده اهالی این فضا بربیاید، و نه آنچنان عمومی و اولیه است که بدون آشنایی پیشینی با این مفهوم قابل استفاده باشد. این کتاب با نیم نگاهی به پرسش های اخلاقی و بنیادی در جهان امروز، به بررسی مسائل اصلی داده های کلان در عصر ارتباطات می پردازد.
۲- داده های کلان: هر چه بیشتر، آشفته تر، همبسته تر
اگر از فصل اول که در حکم مقدمه ای برای طرح بحث است عبور کنیم، فصل دوم در مورد اهمیت حجم و کمیت داده هاست. این فصل با بررسی تاریخی محدودیت در روش های آماری آغاز می شود. در حالی که از قرن ها پیش حکومت ها برای مقاصد مختلف سعی داشتند آمار «چیزها» (مانند جمعیت، میزان تولید و …) را بدانند، اما محدودیت هایی که بر سر راه آنها بود اجازه چنین کاری نمی داد. سرشماری میان مردم، آشکارترین نمونه است که حتی تا قرن نوزدهم نیز تقریبا ناممکن به نظر می رسید. به طور مثال به علت نبود تکنولوژی های لازم برای پردازش داده ها یا عدم امکان بررسی تمام داده ها، این فرایند گاهی ده سال به طول می انجامید که طبیعتا اعتبار داده های اولیه از میان می رفت. مفهوم «نمونه تصادفی» راه حل موقتی بود که داده های کلان را به داده های قابل کنترل تبدیل می کرد. اما این مفهوم نیز هنگام بررسی جزئی تر و پرسش های دقیق تر، کاربرد قبلی خود را از دست می داد. سرانجام با پیشرفت ابزارهای جمع آوری و پردازش داده ها، داده های کلان به معنایی که می شناسیم متولد شدند. منظور از داده های کلان صرفا داده هایی با تعداد زیاد نیست؛ بلکه «استفاده از کل داده ها» (n=all) مدنظر است. این نگاه که بزرگی را به مفهومی نسبی تبدیل می کند، تمام علوم را متحول کرده است. به طور مثال در حالی که روش های نمونه گیری و پرسشنامه ای اصلی ترین روش های علوم اجتماعی محسوب می شدند، حالا دیگر بهترین راه نیستند. گویی استفاده از نمونه تصادفی و روش های قدیمی آماری، چیزی شبیه شلاق دست گرفتن در عصر ماشین های جدید است.
در فصل سوم مسئله دقت در اندازه گیری و جمع آوری داده ها بررسی می شوند. در حالی که تاریخ، آینه ای از تلاش های روزافزون برای دستیابی به ابزارهای دقیق تر اندازه گیری بوده؛ داده های کلان تنها با چشم پوشی از دقت در داده ها ممکن شدند. اندازه گیری دقیق داده ها تا زمان اکتشافات کوانتومی و بسط آن به حوزه های مختلف دانش، یکی از اصول اساسی دانش را تشکیل می داد. با این حال پذیرفتن «آشفتگی» تنها راهی بود که می توانست پای داده های گسترده تر و البته پراکنده تر را تامین کند. البته آشفتگی ویژگی ذاتی داده های کلان نیست، بلکه به اقتضای محدودیت های عملی در ابزارهای اندازه گیری ایجاد شده است. در همین زمینه، روند توسعه تحقیقات فناورانه(مانند تلاش چند ده ساله برای ساخت ماشین ترجمه) نشان می دهد که مدل های ساده با داده های زیاد(و طبیعتا آشفته) همواره از مدل های پیچیده با داده های کم(و دقیق تر) بهتر عمل کرده اند طوری که می توان گفت مکانیسم های آشفته، انعطاف پذیرتر و سازگارتر با جهان فعلی ما هستند. همچنین الگوهای ذخیره داده های نیز به شدت تغییر می کند. در حال که داده ها در گذشته بر اساس پرسش های مشخص پیشینی در دسته بندی های مشخصی قرار می گرفتند، داده های جدید از این قید و بندها آزاد شده اند؛ زیرا آنها دیگر نشان دهنده یک نسخه واحد از حقیقت نخواهند بود.
فصل چهارم در ادامه دو فصل پیشین، بعد مهم دیگری از داده های کلان را آشکار می کند: «همبستگی». در حالی که تا پیش از ظهور داده های کلان، این اصل «علیت» بود که هویت دانش واقعی را تشکیل می داد؛ اما در عصر داده های کلان اصل علیت جای خود را به همبستگی داده است. همبستگی امتداد همان دو اصل پیشین یعنی آشفتگی و حجم زیاد داده هاست. در همبستگی بیش از اینکه پرسش هایی از سنخ «چرا» مورد توجه باشند، پرسش هایی از نوع «چه» مورد توجه قرار می گیرند. علت این مسئله نیز مشخص است: حجم زیاد داده های آشفته، نمی توانند طبق روایتی خطی و علی-معلولی منظم شوند. روایت علی-معلولی مختص داده های کوچک با دقت اندازه گیری بالاست. البته همین مسئله نیز خالی از مناقشه نیست. نویسنده با طرح شبهه دیوید هیوم نسبت به اصل علیت، امکان جستجوی علیت در همان داده های کوچ را نیز مورد سوال قرار می دهد. شبهه هیوم بر این اساس است که آنچه ما در واقعیت می بینیم توالی اتفاقات است و علیت آن چیزی است که ذهن ما بر واقعیت حمل می کند؛ بنابراین هیچ ضمانتی درونی برای وجود اصل علیت وجود نخواهد داشت. با این حال مقصود نویسنده از بحث در این مورد دفاع از نظر هیوم نیست؛ بلکه می خواهد نشان دهد اصل علیت هر چند هنوز از میان نرفته، اما دیگر سرچشمه اصلی معنا بخشی به دانش نیست. این اصل «همبستگی» است که به جای ویژگی های ذاتی داده ها، «ارتباط» میان آنها را مورد توجه قرار می دهد و بدون درگیر شدن با پرسش هایی از سنخ «چرا»، مشکلات عملی را با طیفی از احتمالات حل و فصل می کند.
۳- همه چیز را به داده تبدیل کن
مسئله محوری فصل پنجم این پرسش است که چگونه پدیده های جهان تبدیل به داده می شوند. اغلب ما تصور می کنیم داده سازی همان دیجیتال سازی است. هر چند دیجیتالی شدن به داده سازی کمک می کند اما نویسندگان نشان می دهند که الزاما هر پدیده دیجیتالی نمی تواند تبدیل به داده بشود. نمونه واضح آن کتاب های الکترونیک است. صفحات کتاب های الکترونیک در نتیجه اسکن، تبدیل به اثری دیجیتال شده اند، اما کماکان نمی توان متن آن را مورد تحلیل قرار داد. با این توصیف، آنچه ماهیت داده سازی را تشکیل می دهد ابزارهای فناورانه نیستند، بلکه تلاش بشر برای اندازه گیری، ثبت، تجزیه و تحلیل داده هاست. پس از تبدیل «همه چیز» به داده، کاربردهای داده های کلان ظهور پیدا می کنند؛ کابردهایی که پیش از ظهور کلان داده یا مشخص نبوده اند و یا به صورت ی مبهم شناسایی شده بودند. به همین ترتیب، دیدن جهان به مثابه «مجموعه ای از داده ها» چشم اندازی از واقعیت ایجاد می کند که به شدت با آنچه پیش از این شناخته میشد متفاوت است؛ همانند تفاوتی که بیش از صد سال پیش جهان سرمایه داری با تبدیل همه چیز به کوچکترین واحد(به منظور آمادگی برای جابجایی و مبادله) ایجاد کرد.
۴- ماجرای دوستی داده ها با سرمایه
در فصل بعد، نویسندگان نشان می دهند که در جهان داده های کلان، ارزش داده ها از کاربرد اولیه (یعنی همان مقصود ابتدایی از جمع کردن داده ها) به سمت «کاربردهای بالقوه» میل می کند. به این ترتیب داده ها خود تبدیل به منبع جدید ارزش یا عامل تولید تبدیل می شوند. داده ها نوعی از کالاهای غیررقابتی هستند که بر خلاف کالاهای مادی، فرسوده یا دچار استهلاک نمی شوند. به طور کلی می توان گفت داده ها از سه مسیر: «استفاده مجدد از آنها»، «ترکیب مجدد مجموعه داده ها» و نهایتا «پیدا کردن کاربرد ثانویه «ارزش بالقوه خود را آزاد می کنند. مفهوم «داده های به جامانده» نیز یکی دیگر از مفاهیم این فصل است. داده های به جامانده همان داده های بی ربط و بی ارزشی هستند که ظاهرا کاربردی نداشته، اما جمع آنها و تبدیل شدنشان به داده های کلان یکی از منابع تولید ارزش است. آخرین نکته در این فصل، مسئله ارزش گذاری داده ها و این پرسش است که: آیا ارزش داده ها همان طور مشخص می شود که ارزش کالاهای دیگر؟ در همین زمینه به نظر می رسد داده ها به علت ارزش و کاربرد بالقوه ای که دارند، نمی توانند به راحتی ارزش و طبق معیارهای رایج ارزش گذاری شوند.
فصل هفتم با عنوان «پیامدها»، به گونه ای امتداد فصل پیش نیز محسوب می شود. نویسندگان در این فصل سه نوع از شرکت های مرتبط با داده های کلان را معرفی می کنند: ۱- شرکت هایی که صاحب داده هستند، ۲- شرکت هایی که مهارت و تخصص کافی برای پردازش داده ها را دارند و ۳- شرکت هایی که صاحب سیستم های فکری داده های کلان هستند (منظور شرکت هایی است که فرصت های ایجاد ارزش را زودتر از بقیه مشاهده می کنند و می توانند از دو گروه دیگر استفاده کنند) این سه گانه را می توان به ماجرای معدن طلا نیز تشبیه کرد: صاحب معدن، معدن کاوان و نهایتا سوداگرانی که می دانند چگونه از طلا استفاده کنند. در حالی که اغلب تصور می کنیم گروه دوم و سوم مهم ترین گروه در تولید ارزش از داده های کلان هستند، این گروه اول یعنی صاحبان داده هستند که در طولانی مدت مزیت خود را حفظ می کنند (و اگر بخواهیم از تشبیه معدن استفاده کنیم: ارزش همیشه در طلاست). با این توصیف، به نظر می رسد عصر کارشناسان و متخصصان رو به اتمام است. کارشناسی و موشکافی پدیده ای مربوط به عصر داده های محدود بوده و در عصر داده های کلان، متخصصان آمار، هوش مصنوعی، برنامه نویسی و شبکه مهم نقش را ایفا می کنند. نویسندگان در این فصل مثال های متعددی ارائه کرده اند تا نشان دهند رویکردهای مدیریتی مبتنی بر ذوق/تجربه/بینش در مقابل مدیریت بر مبنای داده های کلان نمی توانند دوام بیاورند. آخرین بحثی که در این فصل اشاره می شود، سرنوشت شرکت ها در عصر داده های کلان است. نویسندگان بیان می کنند در این فضا، تنها شرکت های خیلی بزرگ یا شرکت های کوچک می توانند دوام بیاورند و شرکت های متوسط از رقابت خارج خواهند شد. در واقع شرکت های بزرگ با تکیه بر مزیتی به نام مقیاس، و شرکت های کوچک با مزیتی به نام هزینه های کم و چابکی(و توان چانه زنی بالاتر برای دسترسی به داده های صاحبان داده به علت بی خطر بودن برای آنها) می توانند در این فضا باقی بمانند. این ویژگی ها باعث می شود تا صاحبان جدیدی نیز برای داده ها پیدا شوند و از حق نادیده گرفته خودشان در این فضا دفاع کنند: کاربران حقیقی.
۵- نیمه تاریک داده ها
فصل هشتم به بیان مخاطرات و ریسک های داده های کلان اشاره داد. در حالی که ما به طور روزافزون در برابر کاربرد داده های کلان احساس خطر می کنیم، شرکت ها از سه راهبرد مختلف برای اطمینان سازی ما نسبت به عدم سوء استفاده از داده ها، استفاده کرده اند. اولین راهبرد «اطلاع و رضایت» کاربران است؛ چیزی شبیه به توافقاتی که قبل از نصب برنامه ها امضا می کنیم. دومین مورد به «حق انتخاب» برمیگردد؛ به طوری که کاربران مشخص می کنند به کدام دسته از داده های شخصی خودمان مجوز دسترسی می دهند. سومین راهبرد نیز «بی نام سازی» است که طی آن شرکت ها با حذف شناسه نام و اطلاعات شخصی، از قیمت های دیگر داده های جمع آوری شده استفاده می کنند. اما با همه اینها، هنوز چیزی از احساس ما نسبت به خطرات داده های کلان کم نمی شود. در حالی که با استفاده از داده های کلان می توان وقوع یک جرم را پیش بینی کرد، پرسش هایی اخلاقی مطرح می شود که آیا در چنین حالتی می تواند به مجازات هم اقدام کرد یا خیر؟ این پرسش، مقدمه پرسش حساس تری است مبنی بر اینکه «آیا دیکتاتوری داده ها جایی برای اراده آزاد و حساس ترین کانون های انسانیت ما باقی خواهند گذاشت؟» این مسئله آنجایی بغرنج می شود که برخی مسائل انسانی مانند جرم، بر پایه تصمیم و اراده و به تعبیر بهتر «علیت» پدید می آیند؛ حال سوال بعدی اینجاست که داده های کلان بر پایه تحلیل های همبستگی چقدر می توانند جنبه های انسانی زندگی را رعایت کنند؟ به نظر می رسد ما در جهانی زندگی می کنیم که هر چه وابستگی به داده ها بیشتر می شود، اولین پاسخ سیاستگزاران به مشکلات نیز «جمع آوری داده های بیشتر» خواهد بود.
۶- چگونه با طغیان داده ها روبرو شویم؟
این مسئله که چه طور ریسک های استفاده از داده های کلان را کنترل کنیم، موضوع محوری فصل نهم است. نویسندگان در این فصل سه پیشنهاد برای اصلاح و بهبود نحوه استفاده از داده های کلان ارائه می کنند. اولین پیشنهاد این است که پارادایم حفاظت از حریم خصوصی به جای آنکه بر پایه رضایت فردی باشد، مسئولیت و پاسخگویی کاربران داده ها را فراهم بیاورد. دومین پیشنهاد به محافظت از اختیار انسانی در پیش بینی ها و به طور کلی عملکردهایی است که بر مبنای داده های کلان اتفاق می افتند. سومین راه حل نیز پیدایش طبقه جدیدی از متخصصان تحت عنوان «الگوریتمیست ها» است. این افراد که متخصص کار با داده های کلان و الگوریتم ها هستند، گاه می توانند به صورت بیرونی نقش نوعی وکیل مدافع بی طرف و دارای صلاحیت را ایفا کنند که در مواقع لزوم (مانند دادگاه ها) می توانند از حق مردم دفاع کنند؛ و گاه مانند بازرسان داخلی سازمان، با درجاتی از آزادی و بی طرفی عملکرد شرکت ها را از درون بررسی کنند.
در فصل پایانی نویسندگان به دنبال ارائه طرحی از کلیت مطالب خود در این کتاب هستند. از نگاه آنان، ما در جهانی ارتباطی زندگی می کنیم که داده ها در آن سخن می گویند. به همین ترتیب علی رغم ویژگی های فراوانی که داده های کلان دارند (و در طول فصل اول تا نهم بررسی شد) جهان حاضر به شدت نیازمند پرورش صفات انسانی مانند خلاقیت، شهود و … است. زیرا داده های کلان، مانند نوشته های روی سنگ حتمی نیستند و تنها بر نوعی احتمال در زمان آینده دلالت می کنند. به همین نحو، قابل پیش بینی است که نحوه کاربرد ما از این داده ها، یکی از اولویت های مهمی است که باید در نظر داشت. این مسئله را می توان در تفاوت منطق بیزی(که بر پایه استقرا و طلب مداوم داده ها و آگاهی جدید بنا شده) و منطق باینری(منطق صفر و یک) نشان داد. جهانی که با آن روبرو هستیم با منطق بیزی آشکار می شود و شناخت آن فرایندی است که به نظر می رسد هیچگاه تمام نمی شود؛ زیرا آنچه ما می دانیم و در مجموعه داده های ما (n=all) قرار می گیرد تنها بخش بسیار کوچکی از تمام واقعیت است. اما در همین جهان ما نیازمند تصمیم های باینری مبنی از انجام/عدم انجام کارها هستیم. بنابراین از نگاه نویسندگان، بهترین راه در این جهان در پیش گرفتن تواضع و انسانیت در جهان داده های کلان و استقبال از داده های جدید است.
۷- نگاهی از بالا: نقد و تحلیل کتاب داده های کلان
اگر کمی از داده های کلان اطلاع دارید و می خواهید بیشتر بدانید؛ این کتاب محتوای بسیار مناسبی برای این کار تهیه کرده است. مثال های کاربردی، زمینه های بررسی فراوان و متنوع، دقت در عین سادگی و نهایتا سطحی از جامعیت، از جمله ویژگی های این کتاب است. البته این به معنی بی نیاز بودن مخاطب پس از مطالعه این کتاب نیست؛ بلکه می توان آن را مانند نقشه های تصویربرداری شهری در حکم نوعی راهنما و نقشه کلی دانست. در این کتاب ماهیت برخی مجادلات و جهت گیری ها روشن خواهد شد. نویسندگان با تمرکز بر ویژگی های درونی داده های کلان، تلاش کرده اند «مسئله بغرنج» عصر اطلاعات را به خوبی نشان دهند و اگر کسی به این دست مسائل علاقه قبلی داشته باشد، به خوبی با این کتاب ارتباط برقرار کرد.
البته باید توجه داشت تحلیل های بیرونی و نهایی نویسندگان در قسمت جمع بندی، لزوما امتداد منطقی فصل های کتاب نیست. تحلیل درونی داده های کلان و اقتضائات آن یک چیز است؛ و اتخاذ نوعی جهان شناسی و اخلاق عملی در این جهان چیز دیگری است. به بیان دیگر، ممکن است کسی تمام مطالب این کتاب را قبول داشته باشد اما برخورد متواضعانه، انسانی و گشوده نسبت به داده ها جدید (آن چنان که در بخش پایانی کتاب اشاره می شود) را نپذیرد. به این ترتیب می توان میان محتوای زمینه مند و تاثیرگرفته از فضای اجتماعی در مقابل محتواهای دیگر تفکیک قائل شد. در حالی که پرسش های مردم غربی از جهانی با داده های کلان احتمالا بر روی مسائلی مانند اختیار، آزادی، اخلاق و … دست خواهد گذاشت؛ برای مردم غیرغربی این پرسش ها به نحو بیرونی تر و انتقادی تری طرح خواهد شد. البته این به معنای عدم آگاهی مخاطب غیرغربی نسبت به آن پرسش ها نیست. برعکس، مخاطب غیرغربی به دلیل قرار گرفتن در موقعیت مرزی، هم می تواند پرسش های درونی نسبت به داده های کلان را فهم کند و هم می تواند پرسش های دیگری بر آنها بیفزاید. به همین ترتیب احتمال اینکه نویسندگان این دسته از کتاب ها بخواهند در جمع بندی خود به چنین مسائلی(آن هم نه به سبک رایج جریان های انتقادی که درون جامعه غربی رشد کرده اند) اشاره کنند بسیار بعید است. این مهم تنها از عهده متفکرانی بر می آید که اساسا با افق دیگری از درک جهان نیز امتزاج داشته باشند.