BLOG

AI 基礎

OCR に関する基礎知識から、OCR 導入による業務効率化による働き方の未来を紹介

2019.05.20

Deep learning Tegaki OCR text recognition

紙の文書をスキャンしてデータ化するツールとして知られているOCR。しかし、言葉を耳にしたことがあっても、どのような用途に利用できるのかイメージがなかなかわかない方もいるではないでしょうか。

また、実際にOCRを利用していても、OCRの機能を十分知らないことで、業務効率をさらに上げられるのに、まだまだ使いこなせてないということもあるかもしれません。

そこで、基礎知識からソフトウェアの現状、未来への展望を含め、OCR゙のもたらすメリットや活用方法をご紹介します。

OCR とは?文字認識機能における歴史から応用技術まで基本的な知識解説
- OCRとは? 文字認識研究の歴史や文字認識の仕組み
- 紙の帳票も文書もデジタルデータに。インプット用のOCRサービス
OCR の発展で考えられる未来の理想の働き方と至るまでの課題を紹介

OCR とは?文字認識機能における歴史から応用技術まで基本的な知識解説

OCRとは? 文字認識研究の歴史や文字認識の仕組み

OCRとは「Optical Character Recognition」の頭文字をとった言葉で、日本語では「光学文字認識」となります。OCRの歴史は古く、1928年にオーストラリアで印刷数字を読み取るOCRが、翌1929年にはアメリカで数字とアルファベットを読み取るOCRがそれぞれ開発され特許が出願されました。

日本国内では1968年7月に東芝が国産OCRを初めて製品化。この背景には、郵便番号の採用がありました。郵便番号を自動的に読み取り、仕分けするための機械として東芝は「TR-3」と「TR-4」郵便区分機とよばれるOCRを開発、が、これが実質的に初の国産OCRの製品となりました。

1980年代に入ると官公庁や大手企業がOCRを利用するようになり、らOCRはワークステーションやパソコンと接続して利用する周辺機器の位置付けとなりました。1990年代以降はOCR端末の小型化が進み、現在はOCRのソフトウェア単体での提供もあり、無料でダウンロードして利用可能なフリーソフトのOCRも存在します。

2010年代に入ると、スマートフォンやタブレットと連動する小型のOCR端末や、スマホカメラの画像を使うOCRアプリも登場。パソコンからオンラインで利用が可能なOCRサービスも存在し、ビジネス向けだけではなく個人向けとしても利用が広がりました。

手軽に文字をデータに変換できる便利なOCR、どのような仕組みで動いているのでしょうか。OCRが文字を読み取って文字データとして出力するまでにはいくつかのステップがあります。基本的な流れは以下の通りです。

1. 画像の取り込み･･･書類全体をスキャナやカメラで画像として取り込む
2. レイアウト確認･･･文字や罫線、写真などの構成に分け、文字として読み取る部分を確認する
3. 認識（文字の切り出し）･･･文字列から、文字単位に切り出す
4. 認識（文字認識）･･･文字の特徴から文字を割り出す
5. フォーマット出力･･･テキストデータをファイルに出力する

OCRの流れ

上記のように、まずは全体を画像として取り込み、レイアウトを把握。その後、行や文字といったように細分化していき、文字をデータに切り分けていきます。もっとも重要なのは1文字単位で切り出した後の文字認識するところです。この文字認識の方法はさまざまな方法があり、識字率をあげる鍵になります。最近ではAIのディープラーニング技術を使ったOCRが登場したことにより、高い精度の文字認識も可能になりました。

郵便仕分機から始まった国産OCRですが、他にどのような用途で活用されているのでしょうか。いくつかの業務を具体例としてご紹介します。

各種申し込み書類　手続き書類　(銀行などでの申込み、ポイントなどのカード申込み、、学校や病院の手続き票など)
テストの採点、システムの点検票
注文書データを取り込み、専用のシステムへ投入
勤怠表を取り込み、給与計算をおこなうシステムへ投入

上記で挙げた例のように、企業、学校、官公庁など様々な業種、業態で紙を使った作業はまだまだ多く存在します。これらは書類のままではコンピュータで処理することはできず、人間が1枚1枚確認/判断する以外に方法はありません。人間の手で処理をおこなうということは、人手がかかり、一定の割合でミスも生じてしまうものです。

これまでのような人手による紙ベースでの業務を、コンピュータ活用に置き換えて業務効率化実現するために、OCRは重要な役割を果たします。

OCRの導入にあたっては、まずは業務内容を精査し、紙ベースでの業務がどの程度あるのかを把握する必要があります。紙に書かれた内容を人間が目視によって読み取る業務があれば、その部分を効率化しミスを減らすことが可能になります。

次に、紙から読み取った情報をどのようなシステムに投入しているのか、データ形式やフォーマットを確認しましょう。OCRソフトから出力されるデータ形式には、テキストやCSV、ExcelやWordといった多様なものがあります。

たとえば自社のシステムにCSVデータを投入する際には、所定のフォーマットや順番通りにデータが入っていなければならないケースも多いことでしょう。最後は人間の手作業になってしまうことも少なくありませんが、それでもデータ入力のような大量の作業はOCRの導入によって軽減できることは間違いありません。

紙の帳票も文書もデジタルデータに。インプット用のOCRサービス

OCRを使って書類を文字データに起こすにはどのような手順の作業が必要なのでしょうか。

まずOCR処理を行う為に、紙の書類を画像ファイルやPDFファイルに変換する必要があります。カメラでの撮影や、スキャナーでのスキャナなどで読み取り、ファイルを用意します。スキャナと一口に言っても、書類のスキャンに特化したもの、OCR機能が一体となったもの、文字をなぞるだけでスキャンが可能なものなど、さまざまなタイプの商品が存在します。ほんの一例ではありますが、以下の表にスキャナのタイプをまとめてみました。

OCRのタイプ

また、スキャナの機種によっても読み取り速度や解像度も変わります。文字認識という用途であれば、現在販売されている比較的解像度の低いものでも認識は可能です。ただし、スキャナで文章を取り込む際にあまりにも低い解像度設定してしまうと、画像が荒く文字が認識できないケースも考えられます。文字の他に写真なども綺麗に取り込みたい場合は、できるだけ解像度の高いスキャナがおすすめです。書類や本はさまざまな状態のものがあります。ときには持ち出しが禁止されていることもあるでしょう。そんなときは、ペン型スキャナやハンディスキャナなどを活用すれば外出先でも手軽にデータの取り込みができます。

スキャナで読み取った画像ファイルやPDFファイルは、OCRソフトを使って文字データに変換します。OCRソフトの多くは、ExcelやWord、テキストやCSVファイルなど、さまざまな形式に対応しており、その後どのようなシステムに投入するのかによって使い分けることができます。ただし、スキャナやOCRを提供しているメーカーによっても対応しているファイルは異なるため、事前に確認が必要です。

OCR の発展で考えられる未来の理想の働き方と至るまでの課題を紹介

ペーパーレス化による業務効率化による企業競争力を強化する

OCRを活用して業務効率化を図ることは単なるコスト削減だけが目的ではありません。これまで以上に情報のやり取りがスムーズになり、競争力を強化するという大きな目的もあります。

現在、国はペーパーレス化を推進しており、「e-文書法」や「電子帳簿保存法」などの法律がその象徴として挙げられます。これらは税法によって義務付けられている財務関係や税務関係書類の保存を、紙媒体だけではなく電子データも対象とする法律です。保存した日がわかるようにタイムスタンプを付与するといった一定の条件はつきますが、書類を保管しておく必要がなくなっただけでも業務負荷の軽減に役立ちます。

請求書や領収証などの法律で定められた税務関係以外の書類についても、アンケートのように、これまで紙媒体でやり取りしていたあらゆることが電子化されペーパーレス化が可能になるとさまざまなメリットがあると考えられます。

コストの削減･･･書類を印刷・郵送する必要がなくなる。印刷用紙、トナー、郵送にかかる切手代などのコストが削減される
業務の効率化･･･書類が到着するまでの時間が短縮され、業務がスムーズに進む
顧客満足度の向上･･･情報のやり取りのスピードが向上することによっていち早く情報をつかみ、迅速な顧客対応が可能
情報漏えい対策･･･電子データにパスワードなどのセキュリティ対策を施すことによって、閲覧できる人間を制限できる
顧客データの有効活用･･･大量のアンケート結果などを即座に集計し、マーケティングなどに活かすことができる
データ抽出の効率化･･･紙に書かれた情報は人間の目によって確認する以外に手段はありませんが、電子データ化することによって検索効率がアップ
書類の保管スペースが不要･･･オフィス内のキャビネットなど、書類を保管するための物理的スペースの確保が不要になる
ヒューマンエラーの回避･･･誤って書類を捨ててしまった、破損してしまったなどの人的ミスを防ぐことができる

ペーパーレス化が実現するとコスト削減につながることはもちろんですが、紙媒体のように物理的な移動によって情報がやり取りされることもなくなります。メールやファイル共有などによって、瞬時に情報を共有することがなくなり、スムーズな情報共有が可能になります。これは企業だけではなく、ユーザーにとっても大きなメリットです。

たとえば、紙媒体による上長承認や決裁が必要な場合、書類の到着を待つまでタイムラグが生じてその判断も遅れてしまいます。しかし、ペーパーレス化すれば迅速な判断が可能。その場ですぐに意思決定が可能となり、ユーザーを長時間待たせることなく処理を進められます。

また、コールセンターのようにユーザーのサポートを担う業務においては、過去にあった問い合わせ内容を電子データ化しておくことも可能。同様の問い合わせが来たときに、素早く情報を検索して顧客対応に活用できます。

このように、ペーパーレス化の推進によって解決できるのはコストの問題だけではなく、情報の流動化が活発になることで迅速な対応や意思決定にもつながります。

データ入力業務を削減しクリエイティブな時間を創生するOCRのテクノロジー

OCRの活用によって、機械的なデータ入力作業の手間が省け、生産性の向上につながります。

紙に書かれた内容をコンピュータに打ち込むデータ入力は、これまで事務作業の代表的な例でした。しかし、単純で機械的な作業であることは間違いなく、人件費もかかってしまいます。また、なにかのアイデアが生まれる作業とはいえず、生産性は決して高くない作業でもあります。

人間が仕事をする以上は、クリエイティブで生産性のある業務に従事させるほうが効果的です。単純なデータ入力作業をOCRに代替させることによって、それまでデータ入力に従事してきた従業員を生産性の高い仕事にシフトできます。また、単純な作業よりもクリエイティブに考える仕事のほうが従業員の働きがいやモチベーションアップにもつながるもの。非生産的で無駄の多い業務は長時間労働の温床にもなっているため、一刻も早い業務改善が必要です。

このようなデータ入力業務は大規模なシステム開発をおこなわなくても解決できることが多く、特にOCRは比較的手軽に導入できるシステムのひとつです。自社システムへの自動投入までのカスタマイズができなくても、紙に書かれた内容を文字データに自動的に変換できるだけでも効率的です。

ちなみに、最近では文書だけではなく音声によるデータ入力も可能になっています。GoogleドキュメントやWordにも音声入力は対応しており、無料で利用できます。ICレコーダーで録音したデータを文字に起こしたり、翻訳のために文字データに起こしたりする際に便利な機能ではないでしょうか。ただし、音声の録音環境や滑舌、声のボリュームなどによっては聞き取りづらいケースもあるため、OCRに比べると識字率は高いとはいえない現状があります。

しかし、今後AIの進化によって音声の聞き取りレベルが向上していくと、現在のOCRのように高い識字率も達成できる可能性は十分あります。

AI搭載型OCRでより高精度でわかりやすく日本語対応へ

OCRの良し悪しを判断する大きな要素に識字率があります。OCRにはAIを搭載したAI搭載型OCRが登場しており、すでに高い精度の識字率を誇る製品も存在します。

従来の非AI搭載型OCRは、日本語の誤認識が大きな課題となっていました。よくある誤認識の一例をいくつか紹介しましょう。

日本語の間違い

そもそも日本語は文字認識の分野において難易度が高いとされている言語のひとつです。英語のようにひとつの単語ごとに空白が入るものではなく、前後の文脈や文字の種別（漢字、ひらがな、カタカナ）などから判断しなければならないためです。日本語の文章をコンピュータに認識させるためには、文章の中に入っているひとつひとつのパーツを分解したうえで処理をしなければなりません。また、上記以外にも、画像の解像度が悪かったり複雑なレイアウトの書類は誤認識されやすかったりと、さまざまな要因がありました。

このような複雑な日本語の文字認識において、AIは必要不可欠な存在です。AIはOCRで誤って認識した箇所をディープラーニングによって学習していくことができ、使えば使うほど識字率の精度が向上していきます。また、手書き文字を認識する際も個人の筆跡に影響されることなく識字が可能。AI搭載型OCRは、まるで人間が文章を理解しているかのような動作を可能としています。

【コラム】OCR×AIによる業務改善。RPAによる働き方改革の先にある未来の雇用は?

近年RPAとよばれるシステムを導入する企業も増えてきていますが、AI搭載型OCRと組み合わせて稼働することでより多くの作業を自動化の対象とすることができます。RPAとは「Robotic Process Automation」の略称で、今回紹介したようなデータ入力をはじめとした事務作業をロボットに行わせる技術です。RPAは横断的に複数のアプリケーションを操作できるという大きな特徴があります。たとえば、メールに記載された型番の商品をWEBブラウザで調べ、型番と価格を見積もり書に記載、ファイルを添付して返信といったことも可能です。

このように、RPAは一定のルールや手順が決まった作業であれば自動化によって高い効率を実現でき、現在多くの企業から注目を集めています。RPAを運用するうえでは専門的なプログラミング知識も不要であり、実務を担当する部署単位での導入も簡単。さまざまな業務に対応できるため、RPAは実用的で汎用性の高いシステムといえるでしょう。

RPAとAI搭載型OCRを利用することによって、多くの労働者は単純作業やルーチンワークから解放され、今以上に人間らしいクリエイティブな仕事が可能になります。また、AIは正確なデータ解析を得意とし、今後の需要予測、原因分析などが可能です。これらは経営の意思決定において重要なヒントを与えてくれることでしょう。

一方で、AIの登場によってこれまでの人間の仕事が奪われるという懸念の声を耳にしたことのある方も多いと思います。しかし、そもそもAIやOCR、そしてRPAといったシステムは、人間の仕事を奪うことを目的としているものではありません。新たなアイデアや発想が求められる人間らしい仕事を生み、産業を発展させていくためのひとつのツールにすぎません。AIは積み重ねてきた学習データをベースに処理は可能ですが、新たな発想をもって0から1に生み出すことはできません。

働き方改革が叫ばれるなか、長時間労働から解放され、より生産性の高い人間らしい仕事の方法を生み出さなければなりません。そのためにも、AI搭載型OCRやRPAの導入によって人間の新たなアイデアを生み出すための時間を確保する必要があります。

まとめ

日本では郵便番号の読み取りから始まったOCR。紙の帳票や書類を文字データとして取り込み、現在ではさまざまなファイル形式の出力にも対応可能になりました。官公庁や企業、学校にいたるまで、さまざまな業務に活用されています。

OCRによってペーパーレス化が進むと、コスト削減だけではなく企業の競争力強化にもつながります。また、ここ数年注目を集めているRPAと組み合わせてデータ入力などの単純作業をOCRに任せることで、人間らしいクリエイティブな仕事も新たに生まれてきます。

Cogent Labsでは、手書き文字をデータ化するAI OCRサービス「Tegaki」を提供しています。手書き文字の認識率 99.22%*という高い精度をもとに、データ入力業務の効率化とコスト削減を可能とします。。RPAとの連携やAPI提供にも対応しておりますので、ご興味があるの方はお気軽にお問い合わせください。

*「Tegaki」の認識率について、すべての手書き帳票で初回から99.22%の認識率を保証するものではありません。

この記事をシェア

BLOGトップへ