【プログラム入門】 Python画像解析入門 (第3回 OCRを実装する) 1/2

Python OCR

【プログラム入門】 Python画像解析入門 (第3回 OCRを実装する) 1/2

全編公開中!

 

タネゾー君_python3回目-part-1

 

今回は、プログラム入門として
Pythonで画像解析ソフトを作るための入門向けの
情報発信をします。

今回は、Pythonで作る画像解析入門、
第3回 OCRを実装するとして、実際にプログラム作成を行っていきたいと思います。
実装には何が必要となるか、プログラムの記述はどのようなもの
なるのかを実際に手を動かすイメージでご紹介できればと思います。

 

 

タネゾー君_python3回目-part-2

 

今回は、ご覧の内容で説明できればと思います。

よろしくお願いします。

 

 

タネゾー君_python3回目-part-3

 

まずはじめに実装に向けて概要を説明します。

 

 

タネゾー君_python3回目-part-4

 

今回作成するプログラムは、WindowsOSを対象として、
文字認識のOCRを実装していきたいと思います。

使用するプログラム言語は、Pythonとなり、エディタはVSCodeを使用します。
好みのエディタがある場合は、そちらを使用するので問題ありません。

 

 

タネゾー君_python3回目-part-5

 

ここで改めて、OCRを説明します。

OCRとは光学的文字認識となり、手書きや印刷された文字を読み取って、
デジタルの文字コードに変換する技術です。

画像データを文字コードに変換することで、文字起こし等の機能を作成することが可能となります。

 

 

タネゾー君_python3回目-part-6

 

今回のOCRを作成するあたり、必要な機能があります。
これらの機能を利用することにより、文字認識を実現していきます。

 

画像を読み取りする際には、PILという画像認識のライブラリ
画像を文字データに変換する際には、PyocrというOCRラッパーと、
TesseractというOCRエンジン使用します。

 

 

タネゾー君_python3回目-part-7

 

まずPILについてご紹介します。

PILとはPython Imaging Libraryの頭文字をとったもので、
Pythonで画像処理を行うために必要な機能が含まれているものとなります。2009年のリリースを最後に更新が停止しており、現在は後継のPillowを利用することとなります。

 

 

タネゾー君_python3回目-part-8

 

続いて、PyocrとはOCRツールラッパーのこととなります。

PythonOCRエンジンを利用するために必要なものとなり、
OCRエンジンとPythonのプログラムの中間となります。

このようなものをラッパーと呼びます。

今回はTesseractというヒューレットパカードGoogleが開発した
オープンソースのOCRエンジンを使用します。

 

 

~次回へ続く~

コメント