Blue Prismの内蔵OCRで、請求書の読み取りを試みる＜接触編＞

以前の記事で、Blue Prismの内蔵OCR（tesseract OCR）に、日本語の言語パック（jpn.traineddata）を入れてアレコレ試しました。

以前の記事では、Webページの内容を画像として読み取っていました。
今回は、もう少し業務的なイメージを読み取ってみましょう。。そう、OCRと言えば定番の請求書です。

まぁ、こういうのはとりあえずやってみりゃ良いんですよ。

Web上にいくつかある請求書のサンプルから、マネーフォーワードのものを持ってきました。

マネーフォーワードの請求書は、

といった特徴が見て取れたので、teserract OCRでも行けそうな気がします。。行けたら良いなぁ。。

まず、Regionモードでスパイして、以下のように読取個所を指定します。

f:id:EnterpriseBlueOcean:20181005163816p:plain

全部で7か所を指定しました。日本語のフィールドもあれば、数字のフィールドもあります。

金額については、背景が濃い灰色だったり、黒だったりもします。

実行結果は以下の通り。

f:id:EnterpriseBlueOcean:20181005164202p:plain

惜しいなぁ～。。
なんというか惜しい。主な誤検出は以下だと思いました。

一方で、数字の検出は精度が高いですね。

背景が濃い灰色だったり、黒だったりして、文字が白色であっても、ちゃんと読めています。

日本語の精度も、今後、上がっていくんでしょうか。

今回の画像の一部（うまく読み込めていない「東京都」の「東」周辺）を切り取って、拡大してみました。

f:id:EnterpriseBlueOcean:20181009220045p:plain

やっぱり、白地に黒のモノクロ二階調ではなく、複数の色を使ってスムージングされています。

これが原因では？？・・・つづく！

Enterprise Blue Ocean ◮