Blue Prism でプロセスマイニングと連携する(ABBYY Timeline 入門⑤ プロセスマイニングの理論を学ぶ(4))
こっちも再開しないと。
前回👇
前回までの!あらすじ☆(使いまわし)
- データを ABBYY Timeline にアップロードしたものの
- 分析する方法が皆目、わからないので、、
- Process Mining: Data Science in Action に学ぼう☆
Process Mining: Data Science in Action を学ぶ(Ch. 5)
スライドはこちらです☆
Chapter 5: Process Discovery: An Introduction
4つの品質基準(基準間にトレードオフがある)
- Fitness:検出されたモデルは、イベントログに表示される動作を許容する
- Precision(underfitting:学習不足を避ける):発見されたモデルは、イベントログに表示されたものと異なる動作を許可しない
- Generalization(overfitting:過学習を避ける):検出されたモデルは、イベントログに表示される動作例を一般化する
- Simplicity:発見されたモデルは可能な限りシンプルに表現される
ノイズ(noise)と不完全性(incompleteness)
適切なプロセスモデルを見つけるために、
イベントログには動作の代表的なサンプルが
含まれていると想定した場合の、
2つの関連する現象:
- ノイズ:イベントログには、プロセスの一般的な動作を代表しない、まれな動作が含まれる
- 不完全性:イベントログに含まれるイベントが少なすぎるため、基礎となる制御フロー構造の一部を検出できない
Flower Model から適切なモデルを検出する
- データの量によって検出されるモデルが異なる
- どういうモデルにしていいか、よくわからないケースがある
- ひとつのデータから、4つのモデルが提案されるケースもある(4つの品質基準のどれを重視するかで変わる)
プロセス・マイニングの難しさ
実際のログを否定的にとらえる必要はない(ログは何が起こったかを示しており、起こり得なかったものは示さない)
- ログには通常、考えられるすべての動作の一部しか含まれないため、同時実行、ループ、および選択によってモデルが存在する空間は複雑な構造になる
- モデルのサイズとその振る舞いの間に明確な関係はない(従来の分析および評価方法では通常、単一のプロパティが想定されるが、より小さいモデルでも、複数の振る舞いが多かれ少なかれ、生成される)
まとめ
- Blue Prism とプロセスマイニングを連携させる、第5回
- Process Mining: Data Science in Action を読み進める。。
- 第5章 Process Discovery: An Introduction を読みました☆
イマイチ、アルゴリズムの核心が良くわからんな。。
4つの品質基準に応じて、
どれを重視するならどういうアルゴリズムにするか、
明示してくれた方がわかりやすい。
以降で例示があるのかしらん?
次回は第6章以降を
読み解いていきたいと思います☆
・・・長いな。。