ブラックリスト上手く行きましたか、良かったですね。
・余白について
確かに難し問題ですね、仰るとおり一番外側の色で拡張するのが良いかもです。
ちなみに、画像処理は OpenCV が処理速度も早く楽に画像処理ができて便利です。時間のある時に試してみるのも良いと思います。
・無視した方がいい文字について
今のところ、思い当たる文字はありません。
以前検討していた情報がここ↓にあります。
「Issues · synctam/GCat4X」
https://github.com/synctam/GCat4X/issues?q=
あまり参考になる部分はないと思いますが、リンクを張っておきます。
あとOCRの精度については、Capture2Text のソース(OcrEngine.cpp や OcrEngine.h)を参考にしてはいかがでしょうか。
「GSam/Capture2Text: Linux CLI port of Capture2Text v4.5.1」
https://github.com/GSam/Capture2Text
通報 ...