参考ソースまで貼って頂いてありがとうございます!
・ブラック/ホワイトリストについて
ただ・・・まことに残念なことにtesseract-ocr 4.1.0では、ホワイトリストが使えないようです・・・。
How to whitelist characters in tess4j version 4.1.*
使い始めた時にはそんなことはつゆ知らず・・・。せっかく参考ソースを貼って頂いたのにすみません。
・「対象通り改行」について
アイテム名と説明文
確かにそういう使い方が出来ますね。ならば領域ごとの保存が望ましいということですね。
・「原文を小文字化」について
>>「原文を小文字化」は一律で行っても良いように感じます。
とありますが、チェック機能そのものがなくていいという意味合いでしょうか?
元々「原文を小文字化」については、GoogleTranslateFreeAPIが大文字だけの単語や大文字だけの文章の翻訳精度が異常に悪かったので、読み取り箇所が全て大文字の場合は強制的に小文字にしています。
ただ、文章を一律小文字化すると頭大文字の段落や固有名詞などでは翻訳結果が変わるため、その場でユーザーが確認できるようにチェックして利用して頂くことを目的としていました。
文章全てが大文字だと強制的に小文字になる現在の仕様と、文章単位で強調表示としての大文字の単語が混在することを考えると、プロセス単位、領域単位で保存するメリットがあまりないように思いますがこれといった要件はありますか?
・「ダブルコーテーションを除去する」について
ダブルコーテーションについてですが、文章単位で翻訳精度が上下するので、PCOTでは領域単位やプロセス単位で持つのではなく、翻訳(読取)全体に関わる事だと思うので、辞書登録で処理タイプを「無視」とする仕様になっています。尚、辞書に登録した文言は「辞書一覧画面」にて、有効/無効を切り替えることが可能です。