عصر شکوفایی دادههای بزرگ در کسبوکار
در صنعت فناوری اطلاعات، سال 2012 سال دادههای بزرگ بوده است. در سراسر دهه گذشته مقوله دادههای بزرگ یکی از داغترین بحثها در فناوری اطلاعات بوده است که تحلیلگران مختلف مواضع متفاوتی در مورد آن داشتهاند.
به ندرت میتوان فروشندهای را در حوزه فناوری اطلاعات یافت که راهکاری نرمافزاری در این زمینه نداشته یا حداقل استراتژی برای ورود به بازار نداشته باشد. فراتر از بخش فناوری اطلاعات و حتی در صنعت مالی و رسانهها و انتشارات نیز در خصوص مزایای دادههای بزرگ و موانع آن بحثهای زیادی میشود. اما با این حال همچنان در خصوص تعریف دادههای بزرگ بین صاحبنظران توافق نظر وجود ندارد. در پایان سال 2012 روشن است که دادههای بزرگ به سرعت به این تلقی نزدیک میشود که تمامی اطلاعات دیجیتال که در طول تاریخ جمعآوری، تولید و پردازش شدهاند را در برگیرد. دادههایی که تحت این عنوان (دادههای بزرگ) قرار میگیرند بسیار فراتر از دادههای استخراجشده از رسانههای اجتماعی و دادههای تولید شده بهوسیله ماشینها هستند و تمامی دادههای تراکنشی تجاری را نیز در بر میگیرند. در واقع، هرگونه بحث در خصوص دادههای بزرگ تمامی بایتهای اطلاعات دیجیتالی را که در شبکههای جهان جاری است یا در مخازن ابری دادهها ذخیرهسازی میشود یا حتی دادههای موجود در لوحهای فشرده درسازمانها و حتی گوشیهای هوشمند را نیز شامل میشود. در آوریل 2012 مجله مدیریت اطلاعات گزارش داد: «ما 1018 بایت از دادهها را در روز تولید میکنیم که 90 درصد آن تنها طی دو سال گذشته تولید شده است. هر ساعت، والمارت یک میلیون تراکنش را دارد که در پایگاه دادهای با گنجایش 5/2 پتا بایت (1015 × 5/2 بایت) ذخیره میشود. حجمی که تقریبا 170 برابر دادههایی است که در کتابخانه کنگره آمریکا وجود دارد. کل دادههای خدمات پستی آمریکا در یک سال برابر 5 پتا بایت است که گوگل این میزان از دادهها را تنها در یک ساعت پردازش میکند. کل میزان اطلاعاتی که وجود دارد تخمین زده شده است کهاندکی بیش از یک زتا بایت (1021 بایت) باشد.» اگرچه مساله تعریف واحد از دادههای بزرگ همچنان وجود دارد، اما پاسخ این مساله روز به روز کم اهمیتتر میشود. مفهوم دادههای بزرگ از دو جهت کلیدی تکامل یافته است؛ نخست، فهم رو به رشد از اینکه اندازه مهم است. دوم، تاثیرات ناظر به فناوری حاصل از ساختار دادهها و سرعت پردازش نیز (اگر مهمتر نباشند) به هماناندازه مهم هستند. آنچه واقعا در زمینه دادههای بزرگ اهمیت دارد موضوعات تجاریای است که میتوانند به صورت نظاممند مورد پشتیبانی دادههای بزرگ قرار گیرند و ارزش عملیاتی و تحلیلیای که میتوان از آن استخراج کرد. توسعه و تکامل فناوریهای مربوط به دادههای بزرگ اصطلاح دادههای بزرگ ابتدا در اواخر دهه 1990 در میان دانشمندانی رواج پیدا کرد که نمیتوانستند مقادیر رو به رشد دادههای تولید شده بهوسیله فناوری دیجیتال را به مقدار بسیار زیادی ذخیرهسازی و تحلیل کنند. دادههایی که از علومی همچون فیزیک ذرات، ژنتیک، هواشناسی و حتی ستارهشناسی ایجاد شده بود. این روند رشد امروزه هم ادامه دارد. در حدود سال 2005 دادههای بزرگ تبدیل به یک زمینه پژوهشی در شرکتهای بزرگی همچون گوگل، یاهو، آمازون و نتفلیکس شد؛ زیرا این شرکتها مقادیر عظیمی از دادههای مبتنی بر وب را در اختیار داشتند. این شرکتها با دو چالش روبه رو بودند یکی حجم عظیم دادهها و یکی سرعت ایجاد شدن آنها که ثبت و پردازش آنها را دشوار میکرد. افزون بر اینها دادهها در ساختاری مختلف دریافت میشدند و مهمتر از آن نیازهای پردازشی غیرمنتظره و متغیری داشتند که توانایی راهکارهای سنتی مدیریت دادهها برای پرداختن به آنها محدود بود. به موازات این مسائل، رشد وسایل RFIDو تجهیزات مربوط به آن و همچنین معرفی نخستین گوشیهای نیازمندیهای افزونتری را نیز برای پردازش اطلاعات ورودی با سرعتی بیشتر ایجاد کرد. این روندها منجر به معرفی چارچوب مپ ردیوس در سال 2004 شد. در سال 2008، هادوپ که یک سیستم پردازش موازی فایلهای بزرگ به صورت دستهای و با استفاده از چارچوب مپ ردیوس و یک سیستم پروندهای به عنوان مخزن دادهها است، یک پروژه منبع باز را به نام آپاچی در سطح بالایی طراحی کرد. به شکلی که این پروژه تا حدی مترادف دادههای بزرگ دانسته شد. اما گستره دادههای بزرگ بسیار بیشتر از اینهاست. پروژههای بسیار متعدد دیگری هم پیرامون این پروژه تشکیل شد تا جنبههای مختلف مربوط به این امر را تحت پوشش قرار دهد. با وجود اینکه رویکرد پرونده مبنای هدوپ بسیار همه گیر بود، اما این نیز روشن بود که این سیستم در کارکرد پایگاه دادهای خود برای مدیریت انواع خاصی از دادههای بزرگ، به خصوص آنهایی که دارای تنوع ساختار و تنوع پردازش هستند دچار کمبود است. با رشد سریع شبکههای اجتماعی مانند لینکدین، فیسبوک و توییتر و رشد همزمان غولهای اینترنی همچون گوگل و آمازون در اواخر دهه 2000، پایگاه داده غیررابطهای و روشهای پردازش غیررابطهای که اغلب با نام NoSQL شناخته میشوند پدیدار شدند. BigTable از شرکت گوگل در سال 2006 و Dynamo از شرکت آمازون در سال 2007 پیشگام این رویکرد شدند. در سال 2010 رسانههای جمعی در اوج استفاده از این فناوریها قرار گرفتند. حتی مجله اکونومیست هم یک گزارش ویژه درباره دادههای بزرگ در فوریه سال2010 ارائه کرد و فروشندگان و بازاریابان نرمافزار و سختافزار نیز همه محصولات و راهکارهای خود را با نام «دادههای بزرگ» برچسبگذاری کردند. راهکارهایی که هم روشهای رابطهای را همزمان با سایر روشهای سنتی پردازش دنبال میکردند. تا سالها گفته میشد که این دادههای سنتی کمتر از ده درصد دادههایی را که بهوسیله کسبوکارها مورد مدیریت قرار میگیرند را تشکیل میدهد. اما کاوشی عمیق که در قالب مطالعه گسترده موسسه IDC با عنوان «گسترش جهان دیجیتال» انجام گرفت نشان داد که این درصد در مجموع چیزی کمتر از یک درصد است. اگر چه بخشهای آن به خاطر گستردگی در میان شرکتهای مختلف مبتنی بر وب یا پراکنده متفاوت است. نتایج این پیمایش به شدت با این درصدها متناقض است. نقش فناوریهای رابطهای سنتی در پروژههای فناوری اطلاعات در حال کاهش است. اما همچنان بیشتر از میزان استفاده از فناوریهای NoSQL میباشد. تاریخچه چگونگی مواجهه سکوهای مختلف فناوری اطلاعات با دادههای بزرگ با ویژگی گسترده دادههای بزرگ که معمولا با کلماتی همچون حجم، میزان انتقال و مانند اینها بیان میشود، یک روند روشن را نشان داد و حال اینکه تمرکز پردازشگردان از مقادیر زیاد دادهها در شرایط خاص به سوی دیدگاهی شامل و جامع نسبت به محیط جهانی اطلاعات دیجیتال پیش رفته است که توانایی ثبت و ضبط همه جنبههای واقعیت فیزیکی و همه رخدادهایی که درون این عرصه رخ میدهند را دارد و اگر دادههای بزرگ مترادف با همه دادهها باشد در این صورت باید تمام طیف ویژگیهای ساختاری، پردازشی، مسائل مربوط به حاکمیت دادهها و استفاده از آنها را در بر بگیرد. دادههای بزرگ: پیدایش ارزش نظاممند کسبوکار دادههای بزرگ نوین، که اغلب دادههای چندساختاری خوانده میشود، فرصتهایی را در زمینه بهینهسازی فرآیندهای عملیاتی و ابداع فرآیندهای نوین و همچنین در علم تحلیل و هوش کسبوکار به وجود آورده است. این فرصتها را میتوان در قالب چهار گونه گسترده از کارکردهای کسبوکار که بهوسیله دادههای بزرگ توانمند شدهاند دستهبندی کرد: 1- توسعه مدل کسبوکار با استفاده از دادههای بزرگ ایجاد درآمد و توسعه مدل کسبوکار، به خصوص در صنعت خرده فروشی و کالاهای مصرفی که در آن یک تعامل گسترده مستقیم بینسازمانها و بازارهای مصرفی بزرگ وجود دارد، از طریق دسترسی به دادههای بزرگ بسیار آسان میشود. بخش بازاریابی در شرکتهای پیشرو از اطلاعات رسانههای اجتماعی هم از جهت محتوایی و هم از جهت رابطهای استفاده میکنند و رویکرد خود را از نمونهگیری به سمت دربرگرفتن تمامی دادهها تغییر دادهاند. آنها شیوه بخشبندی بازار خود را تغییر داده و از تحلیل درازمدت روندهای دادههای تاریخی عدول کرده و روی به واکنش فوری به رخدادهای تازه آوردهاند. پیشبینی رفتار مشتریان و نتایج اقدامات پیشنهادی اجازه خلق شدن و آزمون شدن را به مدلهای تازه کسبوکار میدهد. 2. مدیریت قیمتها به صورت فوری با استفاده از دادههای بزرگ با کمک دادههای بزرگ امکان پایش رخدادها به صورت همراه در گوشیهای همراه فراهم شده و پی بردن به کلاهبرداریها در دادههای تراکنشهای مالی آسانتر شده است و زمان کمتری نسبت به گذشته میبرد. استفاده از فنون تحلیل دادههای بزرگ و پی بردن به جریان دادهها پیش از ذخیرهسازی آنها به یک هنجار تبدیل شده و واکنش سریع به مشکلات خاص را پیش از اینکه اوج بگیرند و گسترش یابند فراهم میکند. 3. پیشبینی همزمان شرکتهای پیشرو با استفاده از فناوریهای پردازش دادههای بزرگ و با استفاده از سنسورهای پیشرفته در وسایلی همچون تامین برق و آب و تجهیزات ارتباطات از راه دور، ازاندازهگیریهای کلی و کلان به سمتاندازهگیریهای خرد و دقیق رو آوردهاند. این امر امکان پیشبینی روندهای خرد را فراهم میآورد و با افزایش مصرف باعث افزایش ارزش کسب شده بهوسیله این گونه شرکتها میشود. 4. بازآفرینی فرآیندهای کسبوکار دادههای بزرگ از جهت استفاده نوآورانه از دادههای خلق شده بهوسیله حسگرهای دقیق، امکان بازآفرینی همه صنایع را فراهم آورده است. مثلا در بیمه خودروها میتوان بیمه نامههایی را بر مبنای رفتار واقعی مشتریان تنظیم کرد و نه بر اساس میانگینهای آماری از مخاطرات و ریسکها. دسترسپذیری دادههای ژنتیکی مربوط به افراد و سوابق الکترونیکی پزشکی افراد فرصتهای چشمگیری را برای صنایع بیمه پیش آورده است. هر چند که این مساله از نظر اخلاقی مورد اختلاف است. نتایج پیمایش ما نسبت به چالشهایی که بهوسیله پیادهسازی دادههای بزرگ ازسازمانها زدوده میشود به شدت به نفع علم دادههای عملیاتی بود که نوع پردازش مورد نیاز برای تحقق این اهداف را در گستره زمانی کوتاهی میسر و تقویت میکند. در حالی که تاثیر دادههای بزرگ بر فناوری اطلاعات قابل تشکیک نیست، اما دادههای سنتی عملیاتی و اطلاعاتی نیز دورریختنی نیستند. بلکه این نوع دادهها همچنان محور مدیریت و اداره روزانه کسبوکارها هستند و همچنین برای استفاده معنادار و مرتبط به شرایط خاص از دادههای غیرسنتی نیز کاربرد دارند. به عنوان مثال، ارزش دادههای مربوط به رسانههای اجتماعی وقتی با تراکنشهای مربوط به مشتریان واقعی و قابل تعیین متصل میشوند بسیار بیشتر میشود. استفاده از علم تحلیل دادهها که در شرایط تازه محیط دادههای بزرگ و با استفاده از دهها هزار خدمتدهنده وب انجام میشود، تنها در صورتی ارزش دارد که در روندهای عملیاتیسازمان به شکلی مستقیم و عملی دخالت داشته باشد. این کار با همراه شدن فناوریهای تازه در دادههای بزرگ با دادههای سنتی امکانپذیر است. بنابراین، تاثیرسازمانی دادههای بزرگ را نمیتوان نادیده گرفت. در این شرایط، نقشی تازه به نام نقش دانشمند دادهها درسازمانهای پیشرو به شدت در حال شناخته شدن است. دانشمندی که همزمان دارای مهارتهای مربوط به کسبوکار و مهارتهای مربوط به فناوری اطلاعات است و در زمینههای بسیاری همچون تحلیل آماری، مدلسازی دیداری، دستکاری دادهها و گردآوری یا پالایش دادهها و حتی ذخیرهسازی و کدگذاری دادهها تخصص دارد. نتایج پیمایش ما نشان میدهد که این نقش در اغلب صنایع در حال بروز و قوت گرفتن است مهمتر اینکه سازمانها باید برای درگیرشدن در فرآیندی که آگاهیهای حاصل از دادههای بزرگ را به شکل رفتارها و فرآیندهای تازه تبدیل میکند منسجم و دارای انگیزه کافی باشند و آنها را در فرآیندهای کنونی خود یکپارچه کنند یا اینکه فرآیندهای تازهای برای یکپارچهسازی این امر در فرآیندهای خود را طراحی نمایند. نتایج پیمایش ما نشان داد که مسائل مربوط به ذینفعان و استراتژیسازمان مهمترین موانع پیادهسازی موفق راهکارهای مربوط به دادههای بزرگ هستند. تا سال اخیر، اغلب تحلیلگران و فروشندگان راهکارهای دادههای بزرگ متمرکز بر نو بودن دادههای بزرگ بودند. یعنی به مسائلی همچون انواع دادهها، ابزارهای تازه و فناوریهای لازم برای مدیریت دادهها و حصول سرعت و انعطاف پذیری مورد نیاز و مهارت لازم برای ساختن و استفاده از چنین سیستمهایی توجه داشتند. اما پس از به نتیجه رسیدن بحث ابزارها و فناوریها، تمرکز تحلیلگران و فروشندگان در سال 2012 به سمت دیدگاهی یکپارچهتر نسبت به همه اطلاعات دیجیتال گرایش پیدا کرده و نیاز به یک رویکرد کلیتر برای پشتیبانی و پیادهسازی مبتنی بر کسبوکار پروژههای دادههای بزرگ را پدیدار ساخته است.
مترجم: محمدجعفر نظری