ジャンル不定の日記です。

Tesseractっての面白いかも

WEBサイトの紹介するときにテキストをコピペしてベースにして編集したかったんだが、紹介文が通常のテキストじゃなくて画像で出来てるサイトってあるよね。
画像をテキスト化するソフトってWindowsなんかだと有りそうだけど、Linuxでないかな?

ってわけでちょい調べてみたが、TesseractってコマンドラインのツールがUbuntuのリポジトリにあった。
Googleが作ってるみたい。

本体と日本語パッケージを入れて、
tesseract 入力する画像ファイル 出力ファイル名(拡張子なしで.txtになる) -l jpn
ってな感じでコマンドラインで使うとテキストファイル化する。

ただ、画像に背景があるからだと思うんだが、まともに変換できなかった・・・