書籍のページのスキャンを続けています。殺人的絶望的作業なのです(祈)†
ちなみに霊関連書籍の内容をテキストデータ化する手順を軽く羅列してみますと↓
- 書籍全ページをスキャン(僕は600dpi、tiff、大きく鮮明にスキャンしています)
- スキャンtiff画像をAffinityPhotoファイル化(OCRシルバーバーチの霊訓5巻022-023.afphoto、といった感じのファイル名)
- 白黒調整、現像ペルソナ、余白の塗りつぶしゴミ取り、斜めになっているテキストをまっすぐに修正、正しくOCR変換させるためにルビも消す
- 原寸のまま大きくjpg書き出し
- GoogleドライブにjpgをUP
- UP画像を右クリック「アプリで開く」「Googleドキュメント」と進み、Googleドキュメント上で画像がテキスト変換される
- 変換テキストを全ドラッグコピー、あらかじめ用意しておいたテキストファイル.txtにコピペ
- 書籍と見比べながら不要な半角空白削除、誤字修正、先ほど消したルビを再追加、段落毎に改行、等の作業を経てテキスト化完了
という流れになりますが、たとえばシルバーバーチの霊訓5巻は全246ページです。上記作業はスキャンした見開き2ページに対して行う作業で、つまりこれを246÷2で123回繰り返さないと書籍1冊テキスト化が完了しないという事になります。その書籍が30冊近くあるのです。絶望度合いがご理解頂けるでしょうか。
しかし書籍を見ながら手作業でテキストを1から撃っていくよりはこちらの方が若干速いというのが、これまで作業してきた実感です。どのみち地獄の作業、ひとりでやる作業ではないという事になります。
とにかく「○○社さん発行の霊関連書籍が古書でしか入手できなくなっている問題の解消、シルバーバーチを筆頭とした霊界通信の書籍の再出版」に向けて○○社さんにお手紙を出そうと考えていますが、とにかく99.99999%無視される事でしょう。それでも書いてみましょう。スキャン絶望続行中。霊団はムカつく事を言ってきます。詳細はのちほど(祈)†
ディスカッション
コメント一覧
まだ、コメントがありません