【プログラム入門】 Python画像解析入門 (第3回 OCRを実装する) 1/2
タネゾー君_python3回目-part-1
今回は、プログラム入門として
Pythonで画像解析ソフトを作るための入門向けの
情報発信をします。
今回は、Pythonで作る画像解析入門、
第3回 OCRを実装するとして、実際にプログラム作成を行っていきたいと思います。
実装には何が必要となるか、プログラムの記述はどのようなものと
なるのかを実際に手を動かすイメージでご紹介できればと思います。
タネゾー君_python3回目-part-2
今回は、ご覧の内容で説明できればと思います。
よろしくお願いします。
タネゾー君_python3回目-part-3
まずはじめに実装に向けて概要を説明します。
タネゾー君_python3回目-part-4
今回作成するプログラムは、WindowsOSを対象として、
文字認識のOCRを実装していきたいと思います。
使用するプログラム言語は、Pythonとなり、エディタはVSCodeを使用します。
好みのエディタがある場合は、そちらを使用するので問題ありません。
タネゾー君_python3回目-part-5
ここで改めて、OCRを説明します。
画像データを文字コードに変換することで、文字起こし等の機能を作成することが可能となります。
タネゾー君_python3回目-part-6
画像を読み取りする際には、PILという画像認識のライブラリ、
画像を文字データに変換する際には、PyocrというOCRラッパーと、
TesseractというOCRエンジンを使用します。
タネゾー君_python3回目-part-7
まずPILについてご紹介します。
PILとはPython Imaging Libraryの頭文字をとったもので、
Pythonで画像処理を行うために必要な機能が含まれているものとなります。2009年のリリースを最後に更新が停止しており、現在は後継のPillowを利用することとなります。
タネゾー君_python3回目-part-8
続いて、PyocrとはOCRツールラッパーのこととなります。
このようなものをラッパーと呼びます。
今回はTesseractというヒューレットパカードとGoogleが開発した
オープンソースのOCRエンジンを使用します。
~次回へ続く~
コメント