最近、AI(人工知能)の記事やニュースを見かけることが増えてきました。製造の現場や自動運転、技術研究開発など様々な分野で活用が進んでいるようです。事務作業においても、AIを活用しようという動きが活発になってきています。その代表例の一つがAI-OCRです。今回はAI-OCRを取り上げて、従来型のOCRとの違いや製品を検討する際のポイントについて整理していきます。
AI-OCRとは(OCRとの違い)
AI-OCRは、文字通りAIの技術を取り入れたOCRです。そこまでは、名称からも推測できると思います。では、AI技術を取り入れるというのが具体的にどういうことかと言うと、AIの技術である「機械学習」・「深層学習(ディープラーニング)」を取り入れていることを指しています。
この「機械学習」・「深層学習(ディープラーニング)」という単語はAIを語るときによく出てきますので、簡単に纏めておきます。
・機械学習
着目すべきポイントを人が指定し、AIはその指定されたポイントについて学習し、正解を導き出せるようになっていきます。
例えば、カブト虫とクワガタの画像を自動的に識別するAIがあるとします。
機械学習では、AIに対して「角」を見て判断するように、とポイントを指定します。AIは様々なカブト虫とクワガタの画像の「角」の部分を見てデータを蓄積していき、その結果を基に自動的に識別できるようになっていきます。
・深層学習(ディープラーニング)
着目すべきポイントを人が指定せずに、AIが自ら判断します。
同じく、カブト虫とクワガタの画像を自動的に識別するAIの場合、深層学習では、AIは様々なカブト虫とクワガタの画像を見せていくと、自ら「角」の部分を見て判断すれば良いということを発見します。更に、「角」だけではなく「体形」も見たほうが良い、といった形で自ら識別するためのポイントを追加していくようになります。
「機械学習」や「深層学習」を取り入れたAI-OCRは、予め決められたルールで文字を読み取るのではなく、学習した内容に基づいてルールを見出して読み取ることができるようになります。
その結果として違いが出てくのが、「識字率(特に手書き)」と「項目の自動識別」です。
AI-OCRの特長~識字率の向上~
通常のOCRでも、以前から手書き文字の読み取りは可能でした。ただし、ルール(OCRが持っているロジック)から逸脱したものについては読み取ることができません。どういう意味かと言うと、予めOCRが想定していた形の文字でなければ対応できないという意味です。
手書きの文字の場合、これまでは枠がきちっと指定されている用紙(下図参照)に書いたものでなければ読み取ることは困難でした。
フリーフォーマットで書かれた文字になると、同じ文字であっても大きさから何から異なる点が多過ぎるため、事前に想定してロジックを組むのが難しいという側面がありました。そこで、AIの技術を使うことにより、想定していなかった文字が出てきた場合にも、その特徴を学習して、判断できるようになったのです。
AI-OCRでは、AIの技術の活用により、手書き文字を含めた識字率が格段に向上しています。
AI-OCRの特長~非定型帳票への対応~
もう一つ、実現を可能にしたのが非定型帳票への対応(項目の自動識別)です。次の
図のように、OCRで読み取る場合は、ここに書いたのが氏名(カナ)、その下は氏名(漢字)といったように、予め、どの情報がどこに書かれているかを指定しておく必要がありました。
AIの技術を使うことにより、どの情報が何かを自動的に識別できるようになっています。新しいレイアウトの帳票が増えた場合にも、システムに手を加えたりすることなく、AIが自動的に項目を読み取ってくれる、ということです。
ビジネスで使用する書類には、非定型のものも多数あります。例えば、取引先から送られてくる注文書や請求書といった書類の様式は、取引先毎にばらばらということも少なくありません。AI-OCRを上手く活用することができれば、これらの帳票を自動的に読み取ることが可能となります。
AI-OCR製品検討時の勘所
現在、世の中には様々なAI-OCR製品が出ていますが、どの様な文字、書類でも100%読み取りができる(完全に人の代わりになって文字を読む)AI-OCRは残念ながらまだありません。そのため、数ある製品の中から、自社が自動化したい紙業務に合った製品を選択する必要があるのですが、選択肢となる製品が多い反面、実際に選ぶとなるとどういった点を考慮していくべきか悩んでしまうこともあります。製品のHPなどを一見するだけでは違いはなかなか分からないかもしれませんが、各製品には、それぞれ特徴があります。製品を選ぶためには、その特徴を見極めることが大切です。AI-OCRの製品の特徴を把握するうえでの大きなポイントととして確認すべき点は以下の2点が挙げられます。
①製品がカバーする機能範囲
AI-OCR製品によって、対応できる機能の範囲が異なります。SaaS型で文字の読み取りだけを行うという製品もあれば、読み取った後にデータを構造化して業務システムが受け取るところまでカバーする、というものもあります。
どちらが良い、悪いという話ではありませんが、自社が実現したい内容やデータの連携をどうすべきか、といったところまで考え、それに合った製品を選ぶ必要があります。
②製品の得意領域の理解
AI-OCRは、製品毎に得意とする領域が異なります。大きな着目点としては、次の2点を
挙げることができます。
・手書きと印字のどちらが得意か
・定型帳票と非定型帳票のどちらが得意か
例えば、フリーフォーマットに手書きで書かれた情報を読み取ろうとしているのに、印字かつ非定型が得意なAI-OCR製品を選んでしまっては、識字率はどうしても高くはなりません。自社の紙業務がどの領域に該当するかを分類したうえで、そこを得意領域とする製品を探していくのが近道です。
これらの点を押さえておけば、自動化を考えている紙業務に合う製品と合わない製品を大別することができると思います。ですがシステム投資の成果を高めるためには、大別した中からさらに、最適な製品を選ばなければなりません。より良い製品を選ぶためにお勧めしたいのが、事前の検証です。簡単に言うと、実際の書類を使って製品を動かし、期待通りに読み取りできるかを確かめるということです。事前検証を行うことにより、自社の書類における読み取り精度を確認することができますので、その精度を前提に、システム投資で十分なメリットが出るか否かを分析することができます。
AI-OCRベンダーの多くは、事前検証サービスを提供していますので、大別した製品を対象に、事前検証サービスを受けたうえで、製品を選ぶことをお勧めします。
まとめ
・AI-OCRとは(OCRとの違い)
AI技術を取り入れたOCRである。AI-OCRで使われている技術は次の2つである。
☑ 機械学習:AIが着目すべき点を人が指定したうえで学習
☑ 深層学習:AIが自ら着目点を判断したうえで学習
・AI-OCRの特長~識字率の向上~
これまでは指定された様式に丁寧に書いた文字でなければ読み取りが困難だったが、OCRで読み取ることを意識していない文字でも読み取り精度が向上
・AI-OCRの特長~非定型帳票への対応~
これまでは各項目の位置を事前に指定しなければならなかったが、事前に指定しなくても読み取った文字が何を表しているか判別可能
・AI-OCR製品検討時の勘所
①次の2点により自分たちが読み取りたい書類に合っているかを確認
☑ 製品がカバーする機能範囲
☑ 製品の得意領域の理解(手書き or 印字、定型 or 非定型)
②ベンダーの事前検証サービスを使い、読み取り精度を確認