داده کاوی یا علوم داده و تاثیر آن بر صنایع مختلف

پنج‌شنبه ۱ شهریور ۱۳۹۷ - ۱۸:۳۰
مطالعه 9 دقیقه
داده کاوی یا علوم داده بخش مهمی از برنامه‌ریزی‌ها و تصمیم‌گیری‌های کسب‌وکارها امروزی را تشکیل می‌دهند. این علوم در نتیجه‌ی گسترش کلان داده، مشهور شده‌اند.
تبلیغات

داده کاوی در سال‌های اخیر رشد زیادی در دنیای فناوری داشته است. این علم در موارد متنوع صنعت فناوری از مرتب کردن نتایج جستجو در گوگل تا بهبود پیشنهادهای شغل و همکار در لینکدین و بهینه‌سازی فید شبکه‌های اجتماعی گسترش یافته است.

نکته‌ی قابل توجه این است که این علم ظرفیت ایجاد تغییرات در تمامی زمینه‌ها را دارد. زمینه‌هایی همچون خرید و فروش، ارتباطات، کشاورزی، پزشکی و سلامت، حمل‌ونقل و حتی مجازات‌های قانونی نیز ظرفیت استفاده از علوم داده را دارند. البته هنوز اصطلاحات و عناوینی همچون متخصص داده یا داده کاو، به‌خوبی تشریح داده نشده‌اند. به بیان دیگر این عبارت‌ها برای کارهای متنوع مرتبط با داده به‌کار می‌روند.

سوال اساسی این است که یک متخصص داده دقیقا چه کاری انجام می‌دهد؟ هوگو باون اندرسون نویسنده‌ی مجله‌ی کسب‌وکار هاروارد و بنیان‌گذار پادکست DataFramed است. او در جریان ساخت پادکست خود با بیش از ۳۰ متخصص داده کاوی مصاحبه داشته است. این متخصصان در صنایع بسیار متنوعی فعالیت داشته‌ و تحصیلات گوناگونی داشته‌اند. او در این مصاحبه‌ها به مسئله‌ی اصلی تخصص و وظایف روزانه‌ی یک متخصص داده پرداخته است.

در واقع علوم داده فعالیت‌های گوناگونی را در بر می‌گیرد. افراد حاضر در این مصاحبه‌ها نیز این علم را از زوایای گوناگونی مورد بررسی قرار داده‌اند. به بیان دیگر وظایف و کارهایی که آنها برای یک داده کاو تشریح کرده‌اند، بسیار متنوع بوده است. به‌عنوان مثال متخصصان سرویس‌های Booking و Etsy از ساختارهای تجربی برای بهبود محصولات خود استفاده می‌کنند؛ کارشناسان BuzzFeed از راهکاری هوشمند برای بهینه‌سازی تیتر مطالبشان بهره می‌برند و در Airbnb از یادگیری ماشین برای بهبود تصمیم‌گیری‌های سازمانی استفاده می‌شود.

با توجه به مثال‌های بالا به این نتیجه می‌رسیم که روش‌های داده کاوی و استفاده از کلان داده (بیگ دیتا) در صنایع مختلف، متنوع است. علاوه بر آن، در هر صنعت بسته به کسب‌وکار مورد نظر، روش‌های متنوعی به کار گرفته می‌شود. اما صرف‌نظر از تمامی این تفاوت‌ها، برخی نکات کلی را می‌توان با بررسی فعالیت کلی متخصصان داده آموخت. در ادامه‌ی این مطلب زومیت به این نکات می‌پردازیم.

data analysis

وظیفه متخصص داده

با بررسی عملکرد متخصصان داده، حداقل می‌توان به تعریفی کلی از شغل آنها در دنیای فناوری رسید. متخصصان داده در این صنعت ابتدا منابع گسترده و مشخص را برای داده‌کاوی انتخاب می‌کنند. آنها از آزمایش‌های آنلاین و روش‌های دیگر برای گسترش این پایگاه داده و همچنین آنالایز آن استفاده می‌کنند. یادگیری ماشین مرحله‌ی پیشرفته‌تری است که در پایان وارد شده و در نهایت به شناخت بهتر مشتری و کسب‌وکار، به صاحبان آن کمک می‌کند. در تعریف ساده، داده کاوی در فناوری به‌معنای توسعه‌ی زیرساخت، آزمایش کردن، استفاده از یادگیری ماشین برای تصمیم‌گیری و تولید محصول بر اساس داده است.

گام‌های مثبت علوم داده در صنایع دیگر

یکی از متخصصان مورد مصاحبه در این مطلب، متخصص داده‌ی شرکت Convoy بوده است. این شرکت یکی از بزرگترین فعالان صنعت حمل‌ونقل در قاره‌ی آمریکای شمالی است. بن اسکرینکا به‌همراه تیمش در داده‌کاوی این شرکت، توانسته‌اند صنعت حمل‌و‌نقل جاده‌ای آمریکا را متحول کنند. مثال دیگر، سندی گریفیث از شرکت Flatiron Health بوده که با استفاده از این علم، تحقیقات روی سرطان را در شرکت خود بهبود داده است.

حتی صنایع حمل‌ونقل نیز از علوم داده استفاده می‌کنند

از مثال‌های موفق دیگر در صنایع به جز فناوری می‌توان به شرکت Alluvium اشاره کرد. به گفته‌ی متخصص داده‌ی این شرکت یعنی درو کانوی آنها از یادگیری ماشین و هوش مصنوعی برای تبدیل جریان عظیم داده در صنعت خود، به داده‌های قابل اجرا استفاده می‌کنند. مایک تمیر مثال دیگری است که اکنون به‌عنوان مدیر بخش خودروهای خودران اوبر فعالیت می‌کند. او پیش از این در شرکت Takt به بررسی سیستم داده کاوی و تسهیل این علم در شرکت‌های متنوع حاضر در لیست فورچن ۵۰۰ می‌پرداخته است.

Health Data

نکته‌ی قابل توجه در میان افراد حاضر در این مصاحبه‌ها، نگرانی آنها از تمرکز بیش از اندازه‌ی رسانه‌ها بر هوش مصنوعی و فرآیندهای یادگیری ماشینی و یادگیری عمیق است. به بیان دیگر آنها معتقدند اخبار و تیترهای رسانه‌ای نگران‌کننده در ارتباط با این موضوعات، اصلی داده کاوی و علوم داده را زیر سوال برده است.

قطعا متخصصان داده در کارهای خود از یادگیری عمیق و یادگیری ماشین استفاده می‌کنند اما کارهای دیگر همچون جمع‌‌آوری داده، مرتب کردن آن، گزارش گیری، تصویرسازی داده، استخراج آمار، ارائه‌ی نتایج به افراد مرتبط و در نهایت قانع کردن تصمیم‌گیرندگان شرکت برای عملکرد طبق نتایج نیز در لیست فعالیت‌های آنها قرار دارد.

تکامل مهارت‌های مورد نیاز در داده کاوی

تصور عمومی بر این است که آشنایی با یادگیری عمیق، کلید موفقیت در فعالیت‌های داده کاوی است. جاناتان نولیس یک متخصص داده و مشاور داده کاوی در سیاتل بوده که مشاوره‌های متعددی به شرکت‌های لیست فورچن ۵۰۰ داده است. او در مورد اولویت مهارت‌های مورد نیاز برای یک متخصص داده، توانایی ارائه و تبدیل کردن آن به اطلاعات قابل فهم برای مخاطبان را مهم‌تر از توانایی او در پیاده‌سازی مدل‌های پیچیده‌ی یادگیری عمیق می‌داند. در واقع او معتقد است مهارت‌های ارتباطی برای این متخصصان، اهمیت حیاتی دارد.

مهارت حیاتی برای یک متخصص داده، ارائه‌ی نتایج آنالیز است

مورد قابل توجه دیگر در وضعیت کنونی مهارت‌ها، تغییرات سریع آنها در گذر زمان است. به‌عنوان مثال توسعه‌های سریعی در بخش ابزارهای اوپن سورس داده کاوی در حال رخ دادن است و بسیاری از فعالیت‌های بی‌اهمیت داده کاوان را اتوماتیک می‌کند. بهتر است بدانید که حدود ۸۰ درصد از زمان باارزش داده کاوان به این نوع وظایف مانند پیدا کردن، پاکسازی و مرتب کردن داده‌ اختصاص دارد و تنها ۲۰ درصد از زمان در وظیفه‌ی اصلی یعنی آنالیز گذرانده می‌شود.

data science

البته این نوع از فعالیت‌های داده کاوان به طور حتم ادامه نخواهد یافت. پیشرفت‌های سریعی در زمینه‌ی یادگیری ماشین و یادگیری عمیق رخ داده و این ابزارها به‌زودی بسیاری از آن زمان ۸۰ درصد را برای متخصصان داده صرفه‌جویی می‌کنند.

تمامی این تکامل‌های گفته شده باعث می‌شود که مهارت‌های مورد نیاز برای داده‌کاوی تغییر کند. در آینده‌ی نزدیک دیگر توسعه و استفاده از زیرساخت‌های یادگیری عمیق اهمیت نخواهند داشت. به‌جای این مهارت‌ها، مواردی همچون توانایی یادگیری و ارتباطات قوی به‌منظور پاسخ دادن به سوالات مرتبط با حوزه‌ی کسب‌وکار اهمیت پیدا می‌کند. توضیح دادن نتایج آنالیز به افراد غیرفنی مرتبط با کسب‌وکار نیز در این دسته‌بندی مهم قرار می‌گیرد. به بیان دیگر علاقه‌مندان به داده کاوی باید بیش از تکنیک‌ها، روی سوال‌های مهم در صنعت و نحوه‌ی پاسخگویی به آنها سرمایه‌گذاری کنند. به یاد داشته باشید که روش‌های فنی به‌سرعت در حال تغییر هستند. آن‌چه که اهمیت دارد، تفکر حیاتی و مهارت‌های اختاصی در صنعت مورد فعالیت است.

اهمیت تخصص در داده کاوی

به‌خاطر جدید بودن علم داده کاوی، هنوز مسیرهای مشخص فعالان این حرفه برای ادامه‌ی فعالیت شغلی تدوین نشده است. علاوه بر آن، پشتیبانی لازم از داده کاوان تازه‌کار برای ترسیم تقشه‌ی راه شغلی صورت نمی‌گیرد. در این میان نمونه‌هایی از دسته‌بندی و تدوین تخصص برای این افراد وجود دارد. امیلی رابینسون یک متخصص داده است که فعالان این حوزه را به دو نوع A و B تقسیم می‌کند. نوع A متخصصان آنالیز و تحلیل بوده و به‌نوعی،‌ همان متخصصان سنتی آمار هستند. نوع B، افرادی با مهارت ساخت مدل‌های یادگیری ماشین هستند.

جاناتان نولیس، دسته‌بندی علم داده را در سه بخش انجام می‌دهد. دسته‌ی اول، هوشمندی کسب‌وکاری است. این علم شامل استفاده از داده‌ی شرکت و ارائه‌ی آن به افراد مرتبط است. این ارائه به انواع گوناگون اعم از مقاله، ایمیل یا دستورالعمل انجام می‌شود. دسته‌ی دوم، علم تصمیم‌گیری است. متخصصان این دسته، داده‌ی شرکت را دریافت کرده و در تصمیم‌گیری بر اساس آن فعالیت می‌کنند. دسته‌ی آخر به یادگیری ماشین مربوط است. این دسته، داده را دریافت کرده و از مدل‌های علم داده و یادگیری ماشین برای تولید هرچه بهتر محصول استفاده می‌کند.

data science

اگرچه در حال حاضر اکثر داده کاوان به‌صورت عمومی کار کرده و همه‌ی حوزه‌های بالا را پوشش می‌دهند، اما در بازار این متخصصان، به مرور شاهد ظهور تخصص‌های منحصربه‌فرد و جداسازی شغل‌ها هستیم. در این میان یادگیری ماشین مهارتی است که بیش از همه به سمت تخصص شدن پیش می‌رود.

اصول اخلاقی، چالش اصلی این زمینه‌ی کاری

عدم قطعیت، یکی از موارد شایع در میان داده کاوان است. به بیان دیگر آنها هرچقدر هم که در تخصص خود خبره باشند، به‌صورت قطعی از نتیجه‌ی تحقیقات، بررسی‌ها و تصمیمات مرتبط با آنها مطمئن نخواهند بود. اما چالش بزرگ دیگر این متخصصان، نامشخص بودن اصول اخلاقی و استانداردهایی برای روش‌های فعالیت است. مورد دیگر، نبود دانشنامه یا دستورالعملی جامع برای داده کاوان است.

استانداردهای مشخص برای فعالیت و محصول‌سازی متخصصان داده وجود ندارد

از موارد بالا، نبود اصول اخلاقی و کاری و همچنینی استانداردهای فعالیت، مشکل اساسی همه‌ی داده کاوان است.در دورانی که بسیاری از تعاملات انسان‌ها با دنیای اطراف توسط الگوریتم‌های توسعه‌یافته به دست متخصصان داده دیکته می شود، اصول اخلاقی در کجای این فرآیند قرار دارد. اوموجو میلر متخصص‌داده‌ی یادگیری ماشین در گیت‌هاب در این مورد می‌گوید:

ما باید فهم و آموزش لازم در مورد اصول اخلاقی را به‌دست بیاوریم. به بیان دیگر باید قانونی مانند سوگند بقراط داشته باشیم. نیاز دیگر، مجوزهای فعالیت برای ما متخصصان است تا در صورتی که خطایی مرتکب شدیم، مشمول جریمه یا محرومیت از فعالیت باشیم. در واقع باید نشان دهیم که برخی فعالیت‌ها مورد تایید همه‌ی فعالان صنعت نیستند.
Data Breach

یکی از مشکلات شایع، عواقب خطرناک، جدی و ضداخلاقی است که به‌خاطر استفاده از علوم داده ایجاد می‌شود. نمونه‌ای از این مشکلات، سیستم تشخیص مجرمان آینده با نام COMPAS Recidivism Risk Score است که در کشور آمریکا اجرا شده و متاسفانه تعصب غیراخلاقی روی سیاه‌پوستان دارد.

اجماعی که در حال حاضر در این صنعت وجود دارد، نیاز به تدوین استانداردها در داخل خود صنعت را تایید می‌کند. یکی از روش‌ها برای رسیدن به این استاندارد، ساخت مدل‌هایی است که توانایی توضیح روند فعالیت خود و تصمیم‌گیری‌های جانبی را داشته باشند. مدل‌های یادگیری عمیق در موارد بسیار زیاد،‌ عملکردی عالی دارند اما غیر قابل تفسیر هستند. در این میان محققان، مهندسان و فعالان بی‌شماری در صنعت داده کاوی هستند که در پروژه‌هایی مانند Lime‌، سعی در توضیح دادن روند فعالیت یادگیری عمیق دارند.

به‌هرحال انقلاب علم داده در صنایع و جوامع مختلف در حال رخ دادن است. این که علم داده تنها عنوانی جذاب برای شاغلان آن باشد، یا تخصصی‌تر شده یا به مجموعه‌ای از مهارت‌های پیش‌نیاز برای متخصصان دیگر تبدیل شود، هنوز مشخص نیست. هیلاری میسون در مورد آینده‌ی این عنوان شغلی می‌گوید:

شاید تا ۱۰ سال آینده شغلی به نام متخصص داده نداشته باشیم. همان‌طور که در گذشته نداشتیم. آینده مشخص نیست. شاید متخصص داده نیز به سرنوشت عنوان شغلی «وبمستر» دچار شود.
تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات