پیش پردازش داده در فرآِیندکاوی

پیش پردازش داده ها بخش اساسی هر پروژه علم داده ( که فرآیندکاوی نیز یک تحلیل داده محور مانند دیگر پروژه‌های علم داده در نظر گرفته می‌شود ) است. در حالی که در مقایسه با تحلیل‌های دیگر این بخش جذاب نیست، مرحله پیش پردازش داده در پروژه‌ها اغلب زمان و انرژی زیادی را صرف می کند. برآوردها نشان می دهد که 80 درصد منابع در پروژه های معمولی علم داده (و نیز فرآیندکاوی) به پیش پردازش داده ها اختصاص پیدا می‌کند. در شکل زیر یک مدل کلی از پیش پردازش داده‌ها نمایش داده شده است.  این مدل،  در اصل ، منعکس‌کننده مراحل اصلی در اجرای یک فرآیند تجزیه و تحلیل داده‌ها است. لازم به ذکر است که این مدل ساده سازی بیش از حد واقعیت است، با توجه به تکرارهای زیاد و غیرقابل پیش بینی که اغلب اتفاق می افتد، مدیریت و تکمیل یک پروژه معمولی فرآیند‌کاوی را معمولاً بسیار دشوارتر می کند. بنابراین یکی از پیچیدگی های قابل توجه پروژه‌های فرآیندکاوی ، پیش پردازش داده ها است که معمولاً شامل انتخاب داده ها، پاکسازی داده ها و تبدیل داده ها می شود.

پیش پردازش داده (فرآیندکاوی)

منابع گزارش رویداد :

با توجه به افزایش گسترده در دسترس بودن  سیستم‌های اطلاعاتی، داده های رویداد به سرعت در حال تبدیل شدن به یک موجود تقریباً غیرقابل کنترل است. در حوزه‌های کاربردی، از شرکت‌های معمولی بخش خدمات از جمله بانک‌ها و شرکت‌های بیمه، از تولید، تا مراقبت‌های بهداشتی و آموزشی. در سطح سیستم، موارد زیر را شناسایی می کنیم

رایج ترین و مهم ترین دست‌بندی منابع برای داده های رویداد :

BPMS: در مقیاسی از سیستم‌ها بر مبنای فرآیند‌محوری ، BPMS به احتمال زیاد در بالاترین رتبه قرار می‌گیرد. به این ترتیب، بدون استثنا، داده‌های رویداد به‌دست‌آمده از این سیستم‌ها به آسانی برای تجزیه و تحلیل فرآیند کاوی در دسترس هستند. معمولا داده‌های به دست آمده از این سیستم‌ها نیازی به بحث یکپارچگی داده‎‌ها نخواهند داشت و لاگ معمولاً در سطح ایده آلی از جزئیات اجرا می شود.

برای مطالعه مقاله مربوط به پوشش ضعف نرم‌افزار‌های BPMS توسط فرآیندکاوی این مقاله را مطالعه نمایید

سیستم‌های مدیریت پرونده و  ticketing: مطابق با BPMS، سیستم‌های مدیریت پرونده و ticketing نیز داده‌های زمانی را ثبت می‌کنند که مستقیماً برای فرآیند کاوی مفید است. اغلب، گزارش‌های مربوط به مدیریت پرونده و سیستم‌های ticketing به تغییرات وضعیت مربوط می‌شوند، بنابراین برخی از پیش پردازش‌های اضافی ممکن است برای جدا کردن واحدهای واقعی برچسب‌های کار یا فعالیت لازم باشد.

ERP/CRM: با توجه به پذیرش گستردگی استفاده ، این سیستم های اطلاعاتی سازمانی احتمالاً مهم ترین منبع داده رویداد برای مشاغل و سازمان های مدرن هستند. یک سیستم ERP (برنامه ریزی منابع سازمانی) را می توان به عنوان مجموعه ای از برنامه های کاربردی یکپارچه برای پشتیبانی و مدیریت فرآیندهای کسب و کاری اصلی دید. از سوی دیگر، سیستم های CRM (مدیریت ارتباط با مشتری) تمرکز ویژه ای بر مدیریت تمام تعاملات و روابط با مشتریان دارند. با طراحی، سیستم های ERP از پایگاه های داده مشترک برای ذخیره داده های کسب و کاری مرتبط استفاده می کنند. به این ترتیب، و اگرچه گاهی اوقات کمی سخت‌تر از حد انتظار است، داده‌های گزارش رویداد را می‌توان از سیستم‌های ERP و CRM تهیه کرد.

پایگاه داده های عملیاتی: در کنار سیستم های ERP و CRM، شرکت ها ممکن است از پایگاه های داده عملیاتی دیگری برای پشتیبانی از فرآیندهای کسب و کار خود استفاده کنند. اگر این پایگاه‌های اطلاعاتی دارای عملکردی برای ذخیره داده‌های تاریخی باشند، اغلب می‌توانند به عنوان یک منبع داده رویداد ارزشمند نیز عمل کنند.

نرم افزار مدیریت پروژه: بسیاری از سازمان ها  از برنامه های کاربردی از جمله Hive، Trello، ZOHO و JIRA برای  مدیریت پروژه ها بر اساس یک روش مدیریت پروژه اسکرام، چابک، ناب یا سایر روش ها استفاده می‌کنند.. هنگامی که به تجزیه و تحلیل فرآیند کاوی مدیریت و اجرای پروژه علاقه دارید، این سیستم ها می توانند داده های رویداد ارزشمندی را ارائه دهند.

انبارهای داده و دریاچه‌های داده: در کنار سیستم‌های عملیاتی از جمله ERP و CRM، بسیاری از سازمان‌ها مجموعه‌ای اختصاصی از سیستم‌ها و فناوری‌های هوش تجاری (BI) دارند. انبارهای داده کلاسیک اغلب معدن طلا برای علاقمندان به فرآیندکاوی هستند. جایگزین آنها، که امکان ذخیره سازی داده ها به صورت انعطاف پذیرتر و بدون ساختار را با تغییر از طرحواره در نوشتن به مدیریت داده طرحواره در خواندن فراهم می کند، به عنوان دریاچه های داده نامیده می شود.

داده‌های وب: داده‌های وب‌سایت و برنامه‌ها منبع مهم دیگری از داده‌های رویداد هستند. از خرید آنلاین، بازی، سرمایه‌گذاری، تجارت، رسانه تا شبکه اجتماعی، پلتفرم‌های آنلاین محرک اصلی مدل‌های تجاری مدرن B2C هستند. با تمرکز بالا بر مشتری مداری برای ایجاد  ارزش کسب و کار و  مزیت رقابتی، تجزیه و تحلیل فرآیند کاوی مشتری محور دارای پتانسیل‎‌های بسیار  قدتمندی در این حوزه است. به این ترتیب، علاوه بر داده‌های CRM، فرآیند کاوی علاقه زیادی به داده‌های رویداد تولید شده در این پلتفرم‌های آنلاین دارد. لطفاً توجه داشته باشید که در بسیاری از موارد، از جمله محیط‌های آموزشی مانند MOOC، استاندارد پیش‌فرض پلتفرم‌های مبتنی بر وب برای ذخیره داده‌ها JSON است.

اینترنت اشیا (IoT): در نهایت، سیستم های اینترنت اشیا همچنین دارای پتانسیل بالایی به عنوان منبع داده های رویداد هستند. سنسورها و محرک ها به طور گسترده برای همه نوع مقاصد به کار گرفته شده اند. اگرچه شکاف ریزدانگی بین داده های معمولی اینترنت اشیا (خوانش حسگرها) و داده های رویداد گاهی اوقات پر چالش است، اینترنت اشیا در حال تبدیل شدن به یک منبع بسیار مهم داده ها در زمینه هایی مانند امنیت، تولید، مراقبت های بهداشتی و حمل و نقل است. خاطرنشان می شود که این فهرست جامعی از همه منابع داده گزارش رویداد ممکن نیست. و تنها به موارد با گستردگی بیشتر اشاره شده است.

در این مقاله به بررسی رایج‌ترین منابع تولید داده‌های گزارش رویداد پرداختیم. با این حال در بسیاری از شرکت‌ها سیستم‌های موجودی، انبار و دیگر سیستم‌های شخصی سازی شده می‌تواند منابع ارزشمندی برای ایجاد گزارش رویداد تلقی شوند.

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *