پیش پردازش داده ها بخش اساسی هر پروژه علم داده ( که فرآیندکاوی نیز یک تحلیل داده محور مانند دیگر پروژههای علم داده در نظر گرفته میشود ) است. در حالی که در مقایسه با تحلیلهای دیگر این بخش جذاب نیست، مرحله پیش پردازش داده در پروژهها اغلب زمان و انرژی زیادی را صرف می کند. برآوردها نشان می دهد که 80 درصد منابع در پروژه های معمولی علم داده (و نیز فرآیندکاوی) به پیش پردازش داده ها اختصاص پیدا میکند. در شکل زیر یک مدل کلی از پیش پردازش دادهها نمایش داده شده است. این مدل، در اصل ، منعکسکننده مراحل اصلی در اجرای یک فرآیند تجزیه و تحلیل دادهها است. لازم به ذکر است که این مدل ساده سازی بیش از حد واقعیت است، با توجه به تکرارهای زیاد و غیرقابل پیش بینی که اغلب اتفاق می افتد، مدیریت و تکمیل یک پروژه معمولی فرآیندکاوی را معمولاً بسیار دشوارتر می کند. بنابراین یکی از پیچیدگی های قابل توجه پروژههای فرآیندکاوی ، پیش پردازش داده ها است که معمولاً شامل انتخاب داده ها، پاکسازی داده ها و تبدیل داده ها می شود.
منابع گزارش رویداد :
با توجه به افزایش گسترده در دسترس بودن سیستمهای اطلاعاتی، داده های رویداد به سرعت در حال تبدیل شدن به یک موجود تقریباً غیرقابل کنترل است. در حوزههای کاربردی، از شرکتهای معمولی بخش خدمات از جمله بانکها و شرکتهای بیمه، از تولید، تا مراقبتهای بهداشتی و آموزشی. در سطح سیستم، موارد زیر را شناسایی می کنیم
رایج ترین و مهم ترین دستبندی منابع برای داده های رویداد :
– BPMS: در مقیاسی از سیستمها بر مبنای فرآیندمحوری ، BPMS به احتمال زیاد در بالاترین رتبه قرار میگیرد. به این ترتیب، بدون استثنا، دادههای رویداد بهدستآمده از این سیستمها به آسانی برای تجزیه و تحلیل فرآیند کاوی در دسترس هستند. معمولا دادههای به دست آمده از این سیستمها نیازی به بحث یکپارچگی دادهها نخواهند داشت و لاگ معمولاً در سطح ایده آلی از جزئیات اجرا می شود.
برای مطالعه مقاله مربوط به پوشش ضعف نرمافزارهای BPMS توسط فرآیندکاوی این مقاله را مطالعه نمایید
– سیستمهای مدیریت پرونده و ticketing: مطابق با BPMS، سیستمهای مدیریت پرونده و ticketing نیز دادههای زمانی را ثبت میکنند که مستقیماً برای فرآیند کاوی مفید است. اغلب، گزارشهای مربوط به مدیریت پرونده و سیستمهای ticketing به تغییرات وضعیت مربوط میشوند، بنابراین برخی از پیش پردازشهای اضافی ممکن است برای جدا کردن واحدهای واقعی برچسبهای کار یا فعالیت لازم باشد.
– ERP/CRM: با توجه به پذیرش گستردگی استفاده ، این سیستم های اطلاعاتی سازمانی احتمالاً مهم ترین منبع داده رویداد برای مشاغل و سازمان های مدرن هستند. یک سیستم ERP (برنامه ریزی منابع سازمانی) را می توان به عنوان مجموعه ای از برنامه های کاربردی یکپارچه برای پشتیبانی و مدیریت فرآیندهای کسب و کاری اصلی دید. از سوی دیگر، سیستم های CRM (مدیریت ارتباط با مشتری) تمرکز ویژه ای بر مدیریت تمام تعاملات و روابط با مشتریان دارند. با طراحی، سیستم های ERP از پایگاه های داده مشترک برای ذخیره داده های کسب و کاری مرتبط استفاده می کنند. به این ترتیب، و اگرچه گاهی اوقات کمی سختتر از حد انتظار است، دادههای گزارش رویداد را میتوان از سیستمهای ERP و CRM تهیه کرد.
پایگاه داده های عملیاتی: در کنار سیستم های ERP و CRM، شرکت ها ممکن است از پایگاه های داده عملیاتی دیگری برای پشتیبانی از فرآیندهای کسب و کار خود استفاده کنند. اگر این پایگاههای اطلاعاتی دارای عملکردی برای ذخیره دادههای تاریخی باشند، اغلب میتوانند به عنوان یک منبع داده رویداد ارزشمند نیز عمل کنند.
– نرم افزار مدیریت پروژه: بسیاری از سازمان ها از برنامه های کاربردی از جمله Hive، Trello، ZOHO و JIRA برای مدیریت پروژه ها بر اساس یک روش مدیریت پروژه اسکرام، چابک، ناب یا سایر روش ها استفاده میکنند.. هنگامی که به تجزیه و تحلیل فرآیند کاوی مدیریت و اجرای پروژه علاقه دارید، این سیستم ها می توانند داده های رویداد ارزشمندی را ارائه دهند.
– انبارهای داده و دریاچههای داده: در کنار سیستمهای عملیاتی از جمله ERP و CRM، بسیاری از سازمانها مجموعهای اختصاصی از سیستمها و فناوریهای هوش تجاری (BI) دارند. انبارهای داده کلاسیک اغلب معدن طلا برای علاقمندان به فرآیندکاوی هستند. جایگزین آنها، که امکان ذخیره سازی داده ها به صورت انعطاف پذیرتر و بدون ساختار را با تغییر از طرحواره در نوشتن به مدیریت داده طرحواره در خواندن فراهم می کند، به عنوان دریاچه های داده نامیده می شود.
دادههای وب: دادههای وبسایت و برنامهها منبع مهم دیگری از دادههای رویداد هستند. از خرید آنلاین، بازی، سرمایهگذاری، تجارت، رسانه تا شبکه اجتماعی، پلتفرمهای آنلاین محرک اصلی مدلهای تجاری مدرن B2C هستند. با تمرکز بالا بر مشتری مداری برای ایجاد ارزش کسب و کار و مزیت رقابتی، تجزیه و تحلیل فرآیند کاوی مشتری محور دارای پتانسیلهای بسیار قدتمندی در این حوزه است. به این ترتیب، علاوه بر دادههای CRM، فرآیند کاوی علاقه زیادی به دادههای رویداد تولید شده در این پلتفرمهای آنلاین دارد. لطفاً توجه داشته باشید که در بسیاری از موارد، از جمله محیطهای آموزشی مانند MOOC، استاندارد پیشفرض پلتفرمهای مبتنی بر وب برای ذخیره دادهها JSON است.
اینترنت اشیا (IoT): در نهایت، سیستم های اینترنت اشیا همچنین دارای پتانسیل بالایی به عنوان منبع داده های رویداد هستند. سنسورها و محرک ها به طور گسترده برای همه نوع مقاصد به کار گرفته شده اند. اگرچه شکاف ریزدانگی بین داده های معمولی اینترنت اشیا (خوانش حسگرها) و داده های رویداد گاهی اوقات پر چالش است، اینترنت اشیا در حال تبدیل شدن به یک منبع بسیار مهم داده ها در زمینه هایی مانند امنیت، تولید، مراقبت های بهداشتی و حمل و نقل است. خاطرنشان می شود که این فهرست جامعی از همه منابع داده گزارش رویداد ممکن نیست. و تنها به موارد با گستردگی بیشتر اشاره شده است.
در این مقاله به بررسی رایجترین منابع تولید دادههای گزارش رویداد پرداختیم. با این حال در بسیاری از شرکتها سیستمهای موجودی، انبار و دیگر سیستمهای شخصی سازی شده میتواند منابع ارزشمندی برای ایجاد گزارش رویداد تلقی شوند.
بدون دیدگاه