چگونه متوجه میشویم که یک مدل فرآیندی کشف شده از کیفیت خوبی برخوردار است؟ در واقع، حتی زمانی که تنها توجه خود را به معیار دقت معطوف میکنیم، به سختی توافقی در علم فرآیند کاوی درباره آن وجود دارد. به طور سنتی، ابعاد کیفیت مدلهای کشف شده در فرآیند کاوی شامل تناسب، دقت، تعمیم و سادگی است . برای اکثر این ابعاد کیفیت، معیارهایی پیشنهاد شدهاند که مبتنی بر بررسی انطباق هستند، به عنوان مثال، از طریق همترازی (که یکی از روشهای بررسی انطباق است) میتوان آنها را محاسبه کرد. اگرچه این معیارها اخیرا برای بررسی کیفیت مدلها کشف شده به چالش کشیده شدهاند اما در این مقاله به بررسی آنها میپردازیم
مسئله معیارهای کیفیت پیشنهادی اولیه (تناسب،دقت،تعمیم و سادگی) منجر به ارائه چندین روش و تعاریف جدید برای اندازهگیری ابعاد مختلف کیفیت مدل شد. پیچیدگی اصلی کیفیت مدل در فرآیند کاوی این است که مدلهای فرآیند معمولاً رفتار نامتناهی (از طریق حلقهها) از خود نشان میدهند و عدم وجود مثالهای منفی، یعنی رفتاری که مدل نباید حاوی آن باشد.
اخیراً چندین پیشنهاد ارائه شده است که هدف آن گسترش کشف فرآیند و معیارهای کیفیت مدل به محیط تصادفی است که در آن مدلهای فرآیند شامل احتمالات میشوند و احتمال مشاهده یک دنباله خاص در نظر گرفته میشود که امکان تخمین بهتر زیرمجموعه مربوط به رفتار مدل شده این ممکن است به تعیین کمیت واقعی قابلیت اطمینانی که یک تحلیلگر می تواند در یک مدل داشته باشد کمک کند.
یک موضوع تا حدودی مرتبط در مورد اطمینانی که یک تحلیلگر می تواند در عملکرد یک الگوریتم کشف فرآیند ایجاد کند توسط Van der Werf و همکاران مطرح شد. آنها مشاهده کردند که تکنیکهای کشف فرآیند همیشه مدلهای فرآیند بهتری را زمانی که نمونه بهتری از رفتار فرآیند ارائه شود، کشف نمیکنند، به عنوان مثال، یک گزارش رویداد بزرگتر با مشاهدات رفتار فرآیند.
چشم انداز و چالش ها
بحث بسیارگسترده در مورد چگونگی اندازه گیری کیفیت مدلها نشان می دهد که حتی تعریف دقت برای کشف فرآیند ساده نیست. در عمل، چالشی که ایجاد میشود این موضوع است که باید انتخاب کنید کدام معیار باید در چه حوزهای مورد استفاده قرار گیرد و چه زمانی میتوان یک مدل را برای یک هدف تحلیلی، مناسب دانست. دیدگاه بسیار مرتبط دیگر فرآیند کاوی در رابطه با کیفیت مدل این است که چگونه نمایش مدل فرآیند کشف شده توسط کاربر چنین مدلی درک می شود. وقتی شفافیت را در نظر بگیریم به این موضوع باز خواهیم گشت.
4 بعد کیفیت
تعیین کیفیت مدلهای کشف شده توسط فناوری فرآیندکاوی دشوار است و با ابعاد بسیاری مشخص می شود. در این قسمت به چهار بعد کیفیت تناسب، سادگی، دقت و تعمیم اشاره می کنیم. در این بخش، این چهار بعد را بدون ارائه معیارهای مشخص بررسی می کنیم. برخی از ابعاد در مقالات بعدی با جزئیات بیشتر مورد بحث قرار خواهند گرفت. با این حال، پس از خواندن این مقاله باید درنظر داشته باشید که این معیارها واقعاً می توانندبه کمیت تبدیل شوند.
شکل 1 توصیف سطح بالایی از چهار بعد کیفیت را نشان می دهد. یک مدل با تناسب خوب اجازه می دهد تا رفتاری را که در گزارش رویداد مشاهده می شود، انجام دهد. یک مدل از تناسب کاملی برخوردار است اگر تمام دنبالههای موجود در گزارش بتواند توسط مدل از ابتدا تا انتها پخش شود. روش های مختلفی برای تعریف تناسب وجود دارد. می توان آن را در سطح Case تعریف کرد، به عنوان مثال، کسری از دنبالههایی در گزارش که می تواند به طور کامل دوباره پخش شود. می توان آن را نیز در سطح رویداد تعریف کرد ، به عنوان مثال، کسری از رویدادها در گزارش که بر اساس مدل امکانپذیر هستند است. هنگام تعریف تناسب، تصمیمات طراحی زیادی باید گرفته شود. به عنوان مثال: اگر یک مرحله باید رد شود چه جریمه ای دارد و اگر توکن ها پس از پخش مجدد در شبکه پتری باقی بمانند چه جریمه ای دارد؟
شکل1) تعادل میان 4 بعد کیفیت
بعد سادگی به اصل Occam’s Razor اشاره دارد. این اصل در زمینه کشف فرآیند، بدان معنی است که ساده ترین مدلی که می تواند رفتار مشاهده شده در گزارش را توضیح دهد، بهترین مدل است. پیچیدگی مدل را می توان با تعداد گره ها و کمان ها در نمودار زیرین تعریف کرد. همچنین می توان از معیارهای پیچیده تری استفاده کرد، به عنوان مثال، معیارهایی که “ساختار” یا “آنتروپی” مدل را در نظر می گیرند. ، همچنین این اصل را می توان با استفاده از اصل حداقل طول توصیف (MDL) عملیاتی کرد.
تناسب و سادگی به تنهایی کافی نیستند. این با به اصطلاح «مدل گل» نشان داده شده در شکل 2 نشان داده شده است. «شبکه پتری گل» اجازه می دهد تا هر دنباله ای را که با «Start» آغاز می شود و با «End» پایان می رسد اجرا شود و شامل هر گونه ترتیب فعالیت در بین آنها باشد. واضح است که این مدل اجازه می دهد تا تمام گزارش های رویداد مورد استفاده برای معرفی الگوریتم α. فعالیت های شروع و پایان اضافه شده در شکل 2 فقط یک ویژگی فنی برای تبدیل «مدل گل» به شبکه پتری است. با کمال تعجب، تمام گزارش های رویداد نشان داده شامل این فعالیتها را می توان توسط این مدل واحد بازپخش کرد. این نشان می دهد که این مدل چندان کاربردی نیست. در واقع، «مدل گل» حاوی هیچ دانشی غیر از فعالیت های موجود در گزارش رویداد نیست. «مدل گل» را می توان تنها بر اساس وقوع فعالیت ها ساخت. مدل به دست آمده ساده است و تناسب کامل دارد. بر اساس دو بعد کیفی اول این مدل قابل قبول است. این نشان می دهد که معیارهای تناسب و سادگی لازم هستند، اما کافی نیستند.
اگر «مدل گل» در یک سر طیف باشد، «مدل شمارش» در انتهای دیگر طیف قرار دارد. مدل شمارشی یک گزارش به سادگی تمام توالی های ممکن را فهرست می کند، به عنوان مثال، یک قطعه فرآیند متوالی جداگانه برای هر دنباله در مدل وجود دارد. در ابتدا یک تقسیم XOR بزرگ وجود دارد که یکی از دنباله ها را انتخاب می کند و در پایان این توالی ها با استفاده از یک اتصال XOR بزرگ به هم متصل می شوند. اگر چنین مدلی با یک شبکه پتری نشان داده شود و همه دنباله ها منحصر به فرد باشند، تعداد انتقال ها برابر با تعداد رویدادها در گزارش است. «مدل شمارش» به سادگی رمزگذاری گزارش است. چنین مدلی پیچیده است، اما، مانند «مدل گل»، تناسب اندام کاملی دارد.
شکل 2) مدل فرآیندی گل
مدلهای افراطی مانند «مدل گل» (هر چیزی ممکن است) و «مدل شمارش» (فقط گزارش رویداد ممکن است) نیاز به دو بعد اضافی را نشان میدهند. یک مدل در صورتی دقیق است که اجازه رفتار «بیش برازش» را ندهد. واضح است که «مدل گل» فاقد دقت است. مدلی که دقیق نیست «Underfit» است. این چالش مشکلی است که مدل اجازه رفتارهایی در گزارش را بیش از حد میدهد، بهعنوانمثال، مدل اجازه میدهد تا رفتارهایی بسیار متفاوت از آنچه در گزارش دیده میشود، داشته باشد.
یک مدل باید بتواند تعمیم دهد و رفتار را به نمونههایی که در گزارش مشاهده میشود محدود نکند (مانند «مدل شمارش»). مدلی که تعمیم نمییابد دارای «بیش برازش» است. برازش بیش از حد مشکلی است که یک مدل بسیار خاص تولید میشود، درحالیکه بدیهی است که گزارش فقط رفتار نمونهای از واقعیت را دارد، بهعنوانمثال، مدل گزارش نمونه خاص را توضیح میدهد، اما گزارش نمونه بعدی از همان فرآیند ممکن است یک مدل فرآیند کاملاً متفاوت ایجاد کند.
الگوریتمهای فرآیند کاوی باید بین «بیش برازش» و کم برازش تعادل ایجاد کنند. اگر یک مدل تعمیم ندهد و فقط رفتار دقیق ثبت شده در گزارش را اجازه دهد، بیش برازش اتفاق میافتد. این بدان معناست که تکنیک استخراج مفهوم بسیار قوی از کامل بودن را در نظر میگیرد: «اگر دنباله در گزارش رویداد نباشد، امکانپذیر نیست!». یک مدل کم برازش، چیزهای دیده شده در گزارش را بیش از حد تعمیم میدهد، بهعنوانمثال، امکان رفتار بیشتر را حتی زمانی که هیچ نشانهای در گزارش وجود ندارد که این رفتار اضافی را نشان دهد وجود ندارد
بدون دیدگاه