چگونه متوجه می‌شویم که یک مدل فرآیندی کشف شده از کیفیت خوبی برخوردار است؟ در واقع، حتی زمانی که تنها توجه خود را به معیار دقت معطوف می‌کنیم، به سختی توافقی در علم فرآیند کاوی درباره آن وجود دارد. به طور سنتی، ابعاد کیفیت مدل‌های کشف شده در فرآیند کاوی شامل تناسب، دقت، تعمیم و سادگی است . برای اکثر این ابعاد کیفیت، معیارهایی پیشنهاد شده‌اند که مبتنی بر بررسی انطباق هستند، به عنوان مثال، از طریق هم‌ترازی‌ (که یکی از روش‌های بررسی انطباق است) می‌توان آن‌ها را محاسبه کرد. اگرچه این معیار‌ها اخیرا برای بررسی کیفیت مدل‌ها کشف شده به چالش کشیده شده‌اند اما در این مقاله به بررسی آن‌ها می‌پردازیم

مسئله معیارهای کیفیت پیشنهادی اولیه (تناسب،دقت،تعمیم و سادگی) منجر به ارائه چندین روش و تعاریف جدید برای اندازه‌گیری ابعاد مختلف کیفیت مدل شد. پیچیدگی اصلی کیفیت مدل در فرآیند کاوی این است که مدل‌های فرآیند معمولاً رفتار نامتناهی (از طریق حلقه‌ها) از خود نشان می‌دهند و عدم وجود مثال‌های منفی، یعنی رفتاری که مدل نباید حاوی آن باشد.

اخیراً چندین پیشنهاد ارائه شده است که هدف آن گسترش کشف فرآیند و معیارهای کیفیت مدل به محیط تصادفی است که در آن مدل‌های فرآیند شامل احتمالات می‌شوند و احتمال مشاهده یک دنباله خاص در نظر گرفته می‌شود که امکان تخمین بهتر زیرمجموعه مربوط به رفتار مدل شده این ممکن است به تعیین کمیت واقعی قابلیت اطمینانی که یک تحلیلگر می تواند در یک مدل داشته باشد کمک کند.

یک موضوع تا حدودی مرتبط در مورد اطمینانی که یک تحلیلگر می تواند در عملکرد یک الگوریتم کشف فرآیند ایجاد کند توسط Van der Werf و همکاران مطرح شد. آنها مشاهده کردند که تکنیک‌های کشف فرآیند همیشه مدل‌های فرآیند بهتری را زمانی که نمونه بهتری از رفتار فرآیند ارائه شود، کشف نمی‌کنند، به عنوان مثال، یک گزارش رویداد بزرگتر با مشاهدات رفتار فرآیند.

چشم انداز و چالش ها

بحث بسیارگسترده در مورد چگونگی اندازه گیری کیفیت مدل‌ها نشان می دهد که حتی تعریف دقت برای کشف فرآیند ساده نیست. در عمل، چالشی که ایجاد می‌شود این موضوع است که  باید انتخاب کنید کدام معیار باید در چه حوزه‌ای مورد استفاده قرار گیرد و چه زمانی می‌توان یک مدل را برای یک هدف تحلیلی، مناسب دانست. دیدگاه بسیار مرتبط دیگر  فرآیند کاوی در رابطه با کیفیت مدل این است که چگونه نمایش مدل فرآیند کشف شده توسط کاربر چنین مدلی درک می شود. وقتی شفافیت را در نظر بگیریم به این موضوع باز خواهیم گشت.

4 بعد کیفیت

تعیین کیفیت مدل‌های کشف شده توسط فناوری فرآیندکاوی دشوار است و با ابعاد بسیاری مشخص می شود. در این قسمت به چهار بعد کیفیت تناسب، سادگی، دقت و تعمیم اشاره می کنیم. در این بخش، این چهار بعد را بدون ارائه معیارهای مشخص بررسی می کنیم. برخی از ابعاد در مقالات بعدی با جزئیات بیشتر مورد بحث قرار خواهند گرفت. با این حال، پس از خواندن این مقاله باید درنظر داشته باشید که این معیار‌ها واقعاً می توانندبه کمیت تبدیل شوند.

شکل 1 توصیف سطح بالایی از چهار بعد کیفیت را نشان می دهد. یک مدل با تناسب خوب اجازه می دهد تا رفتاری را که در گزارش رویداد مشاهده می شود، انجام دهد. یک مدل از تناسب کاملی برخوردار است اگر تمام دنباله‌های موجود در گزارش بتواند توسط مدل از ابتدا تا انتها پخش شود. روش های مختلفی برای تعریف تناسب وجود دارد. می توان آن را در سطح Case تعریف کرد، به عنوان مثال، کسری از دنباله‌هایی در گزارش که می تواند به طور کامل دوباره پخش شود. می توان آن را نیز در سطح رویداد تعریف کرد ، به عنوان مثال، کسری از رویدادها در گزارش که بر اساس مدل امکان‌پذیر هستند است. هنگام تعریف تناسب، تصمیمات طراحی زیادی باید گرفته شود. به عنوان مثال: اگر یک مرحله باید رد شود چه جریمه ای دارد و اگر توکن ها پس از پخش مجدد در شبکه پتری باقی بمانند چه جریمه ای دارد؟

شکل1) تعادل میان 4 بعد کیفیت

بعد سادگی به اصل Occam’s Razor اشاره دارد. این اصل در زمینه کشف فرآیند، بدان معنی است که ساده ترین مدلی که می تواند رفتار مشاهده شده در گزارش را توضیح دهد، بهترین مدل است. پیچیدگی مدل را می توان با تعداد گره ها و کمان ها در نمودار زیرین تعریف کرد. همچنین می توان از معیارهای پیچیده تری استفاده کرد، به عنوان مثال، معیارهایی که “ساختار” یا “آنتروپی” مدل را در نظر می گیرند. ، همچنین این اصل را می توان با استفاده از اصل حداقل طول توصیف (MDL) عملیاتی کرد.

تناسب و سادگی به تنهایی کافی نیستند. این با به اصطلاح «مدل گل» نشان داده شده در شکل 2 نشان داده شده است. «شبکه پتری گل» اجازه می دهد تا هر دنباله ای را که با «Start» آغاز می شود و با «End» پایان می رسد اجرا شود و شامل هر گونه ترتیب فعالیت در بین آنها باشد. واضح است که این مدل اجازه می دهد تا تمام گزارش های رویداد مورد استفاده برای معرفی الگوریتم α. فعالیت های شروع و پایان اضافه شده در شکل 2 فقط یک ویژگی فنی برای تبدیل «مدل گل» به شبکه پتری است. با کمال تعجب، تمام گزارش های رویداد نشان داده شامل این فعالیت‌ها را می توان توسط این مدل واحد بازپخش کرد. این نشان می دهد که این مدل چندان کاربردی نیست. در واقع، «مدل گل» حاوی هیچ دانشی غیر از فعالیت های موجود در گزارش رویداد نیست. «مدل گل» را می توان تنها بر اساس وقوع فعالیت ها ساخت. مدل به دست آمده ساده است و تناسب کامل دارد. بر اساس دو بعد کیفی اول این مدل قابل قبول است. این نشان می دهد که معیارهای تناسب و سادگی لازم هستند، اما کافی نیستند.

اگر «مدل گل» در یک سر طیف باشد، «مدل شمارش» در انتهای دیگر طیف قرار دارد. مدل شمارشی یک گزارش به سادگی تمام توالی های ممکن را فهرست می کند، به عنوان مثال، یک قطعه فرآیند متوالی جداگانه برای هر دنباله در مدل وجود دارد. در ابتدا یک تقسیم XOR بزرگ وجود دارد که یکی از دنباله ها را انتخاب می کند و در پایان این توالی ها با استفاده از یک اتصال XOR بزرگ به هم متصل می شوند. اگر چنین مدلی با یک شبکه پتری نشان داده شود و همه دنباله ها منحصر به فرد باشند، تعداد انتقال ها برابر با تعداد رویدادها در گزارش است. «مدل شمارش» به سادگی رمزگذاری گزارش است. چنین مدلی پیچیده است، اما، مانند «مدل گل»، تناسب اندام کاملی دارد.

شکل 2) مدل فرآیندی گل

مدل‌های افراطی مانند «مدل گل» (هر چیزی ممکن است) و «مدل شمارش» (فقط گزارش رویداد ممکن است) نیاز به دو بعد اضافی را نشان می‌دهند. یک مدل در صورتی دقیق است که اجازه رفتار «بیش برازش» را ندهد. واضح است که «مدل گل» فاقد دقت است. مدلی که دقیق نیست «Underfit» است. این چالش مشکلی است که مدل اجازه رفتار‌هایی در گزارش را بیش از حد می‌دهد، به‌عنوان‌مثال، مدل اجازه می‌دهد تا رفتارهایی بسیار متفاوت از آنچه در گزارش دیده می‌شود، داشته باشد.

یک مدل باید بتواند تعمیم دهد و رفتار را به نمونه‌هایی که در گزارش مشاهده می‌شود محدود نکند (مانند «مدل شمارش»). مدلی که تعمیم نمی‌یابد دارای «بیش برازش» است. برازش بیش از حد مشکلی است که یک مدل بسیار خاص تولید می‌شود، درحالی‌که بدیهی است که گزارش فقط رفتار نمونه‌ای از واقعیت را دارد، به‌عنوان‌مثال، مدل گزارش نمونه خاص را توضیح می‌دهد، اما گزارش نمونه بعدی از همان فرآیند ممکن است یک مدل فرآیند کاملاً متفاوت ایجاد کند.

الگوریتم‌های فرآیند کاوی باید بین «بیش برازش» و کم برازش تعادل ایجاد کنند. اگر یک مدل تعمیم ندهد و فقط رفتار دقیق ثبت شده در گزارش را اجازه دهد، بیش برازش اتفاق می‌افتد. این بدان معناست که تکنیک استخراج مفهوم بسیار قوی از کامل بودن را در نظر می‌گیرد: «اگر دنباله در گزارش رویداد نباشد، امکان‌پذیر نیست!». یک مدل کم برازش، چیزهای دیده شده در گزارش را بیش از حد تعمیم می‌دهد، به‌عنوان‌مثال، امکان رفتار بیشتر را حتی زمانی که هیچ نشانه‌ای در گزارش وجود ندارد که این رفتار اضافی را نشان دهد وجود ندارد

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *