LLYZ
2023/09/08 (金) 10:56:00
087f4@08a46
こんにちは、初めまして。質問させて下さい。
読み取った日本語の文章がスペースで区切られてしまって、棒読みちゃんは一文字ずつ読んでしまいます。
Windows 10 OCR、Tesseract OCR、Google OCRすべてスペースが含まれてしまいます。
スペースを入れないようにする設定はありますか?
https://gyazo.com/e507dabd06fd715cb9358c58d0116838
通報 ...
PCOTをご使用いただき、ありがとうございます。
お問合せについてですが、結論から言ってしまうとちょっと難しいです。
元々PCOTは英語を日本語に翻訳する為のツールなのと、詳しい説明は避けますが、段落を再現する過程でそうなってしまいます。
一応、文章中からスペースを除去する設定を追加出来なくはないです。
でも付けるからにはアクセスしやすいメイン画面上(改行無視や対象通り改行辺り)に付けたいところですが、メイン画面はもうミチミチなので頭を抱えてます・・・。
設計(?)の事は全く分からない素人なので想像100%で話しちゃって本当に申し訳ないのですが...。
元が英語を日本語にする為のツールという事であれば英語の時にスペースを除いてしまうと見辛くなって困っちゃうと思うので、そんなに頻繁にON/OFFして使う機能ではないのかなと思います。
逆に「言語:日本語」を選択している時は多分、ほぼ絶対スペースを除きたいと思うんです。
なので、「言語:日本語」を選択している時はデフォルト設定としてスペースを除くというのが(もし可能なら)それが自然に感じます。
その場合は(無いとは思いますが)どうしても日本語の時に1文字ずつにしたいんだ!という方の為に、どこかメニューの設定項目の隅っこに「日本語の時もスペースを除かない」みたいな設定項目があると嬉しいのかなと思います。
もしスペース抜きが実現出来るようでしたらとてもありがたいです🙏
有意義なご提案を頂き、ありがとうございます。
今まで色々と試したり見たりしてきた範囲で情報を共有しておきます。
まず、文字が一字ずつスペースで区切られてしまうのは日本語だけでなく、韓国語や中国語(いわゆるマルチバイト文字)なんかも同じように区切られます。
上記を前提として懸念点を挙げると、例えば上のような画像を読んだ時に問答無用でスペースを抜くと「はい」と「いいえ」が繋がって「はいいいえ」となってしまいます。
ゲームのセリフなどは大抵が繋がった文章だと思うので大丈夫だと思いますが、問題は中国語や韓国語で、韓国語を例にとると以下の画像のように微妙に単語単位?で分かれているようなのです。
これを全部繋げると、意味が変わってしまいそうなのと、変わった上で正しい訳かどうかを検証できません。
※検証できたらPCOTなんて作ってませんからね!
これらを踏まえて、メイン画面の上部メニューの「設定」の箇所に日本語のみスペースの除去をON/OFFするオプション(デフォルト:ON)を追加しようと思います。
それでよろしいでしょうか?
はい!私はそれで大満足です!ありがとうございます!
もし可能なら全角スペースは除去しないでほしいです。
日本・中国のテキストは主に全角スペースを使うみたいなので、「中国語もスペースを除きたい!」となった場合も全角スペースだけ残せれば読みやすく場面が増えるみたいです。
(韓国語は半角スペースを多用するらしいので当てはまりませんが)
おそらくその他の言語を使いたい人に影響は無いと思いますし、日中語を使いたい人は使いやすくなる(はず)、元にも戻せる設定もあるとの事なので完璧だと思います!!
ご回答ありがとうございました。
では、そのように実装します。ちょっとプライベートでバタバタしているので、いつリリース出来るかはちょっとお約束できませんが、可能な限り早く実装します。今しばらくお待ちください。
で、全角スペースなのですが、OCRでは全角含めスペースを読み取らないんです。
ややこしいので最初に詳しい説明を避けましたが、OCR自体の段落判定が甘く、そのまま表示すると行の途中で改行されてしまうので、段落を再現する処理をPCOT側で独自に座標を計算して実現している感じです。
この際に単語単位で一度文章をバラバラにして、再度再構築するのですが、再構築する際にスペースで区切るため、日本語などでは一字ずつスペースで区切られてしまう感じです。
なので、恐らく素で読み取った文章はどんな言語であれ、全角スペースは含まれないと思います(辞書登録で置換した場合は別ですが)
以上を踏まえて、ご要望の機能を実装しますのでしばらくお待ちください。
ありがとうございます、のんびり待ってます!😄