トップページ

Project Zephyr
國原吉之助『古典ラテン語辞典(改訂増補版)』の変化形付きEPWING化

更新履歴

はじめに

ここにあるツールを使って、國原吉之助先生の『古典ラテン語辞典(改訂増補版)』のページ画像を変化形見出し付きのEPWINGにできます。各ページにあるはずの見出し語は、Persus Digital Libraryで電子テキスト化済みの Lewis&Short (LS) の見出しとしています。LSにあって國原辞典に載っていない語も見つかるのですが、全見出しのテキスト化をサボったための食い違いとしてご容赦ください。

私自身は、改訂増補版を持っておらず、実際の変換を確認していません。ただし動作確認済みの初版とページ番号が異なるだけですので、うまく行くはずです。


【注意:本ツールが対応しているのは、2017年1月に発売になった改訂増補版です。
2005年の初版についてはこちら。】

検索画面例

ここにある画面例は初版のものです。検索のイメージをつかむため、参考までに御覧ください。

見出し検索

検索語が載っているであろうページの画像を表示します。この例では670ページの右側です。辞書本体の見出しとして検索できるのはLSに載っているものだけです。ページ番号でも検索できます。

スクロールして目的の語を探します。

iPad mini Retinaでの表示例(クリックでフルサイズ表示)。

変化表の表示

巻末に変化表が載っている語は、「amo @」「Caesar @」のような見出しとして見つかります。

Whitaker WORDSから自作プログラムにより作成したラテン語変化形データを、表形式にまとめたものも見られます。名詞・動詞・形容詞のみ収録しています。見出し語の右端に # が付いています。

変化形から辞書検索

変化形を検索すると、その変化形情報と元の形が分かります。元の形をクリックすると、それが載っているであろうページ画像にジャンプしますので、スクロールしてその語を探します。

付録の節番号での検索

巻末付録の§106 など番号(106)を検索すると、そのページが見られます。§9については9, 9f, 9f10など、§41では41, 41.2, 41.10cなどでも検索できます。

前書き・付録など

メニュー検索で、前書きや付録の各ページも見られます。




EPWING化に必要なもの

私自身は、改訂増補版を持っておらず、実際の変換を確認していません。ただし動作確認済みの初版とページ番号が異なるだけですので、うまく行くはずです。




1.國原辞典の自炊(PDF化)

私は以下のように自炊しました。スキャンの設定によっては、次のEPWING化でうまく行かない事があるかも知れませんが、免責とさせてください。

  1. 國原辞典をキンコーズで断裁してもらう。約1000円。
  2. ScanSnap iX500で全ページ(書名ページから奥書まで)スキャンしてPDF保存(約100MB)。PDFはモノクロ画像に変換にしますので、カラーモードは「グレー」ではなく「白黒」がおすすめです。

私は、上記のように「傾き補正なし」でスキャンしましたが、「補正あり」のほうが良いようです。

2.PDFのページ画像化

2.1.パラメータ設定 (params.bat)

params.batをエディタ(メモ帳など)で開き、PDF_NAME, DPI, MARGIN, CLEAN_RANGE, IGNORE_DOT, THREAD_NUMの設定を確認します。PDFファイル名など、適宜変更します。

MARGIN,CLEAN_RANGE, IGNORE_DOTは、余白部分の自動削除のためのパラメータです。時々ゴミの黒ドットが載る事があるため、多少の黒ドットは無視できるようにしています。以下の例では、4ミリ四方に40ドット以下しかなかったら、ゴミとして消去します。また、余白と判定した部分をすべて取り除くと、文字の一部が欠けてしまう事があるので、MARGINドットは余白部として残すようにしています。

THREAD_NUMを2以上にすると、画像変換が同時に複数ページずつ行われます。最近のCPUは2コア、4コアのものが一般的ですので、適当に増やしてください。

@ECHO OFF

::変換するPDFファイル名
set PDF_NAME=kunihara-latin2.pdf

::出力画像の解像度 [dpi]
set DPI=300

:: 余白削除のパラメータ
::: MARGIN 残す余白のドット数
::: IGNORE_DOT CLEAN_RANGEミリ四方にIGNORE_DOT個以下のドットしかなければ、ゴミとして消す
::: CLEAN_RANGE を 0 とすると、ゴミドットを消去しない(PDF->画像変換が早くなる)
set MARGIN=20
set CLEAN_RANGE=4
set IGNORE_DOT=40

:: 同時実行数
set THREAD_NUM=2
・・・

2.2.はしがき・付録の画像化 (makeapdxbmp.bat)

表紙(Colossēumの挿絵あり)・はしがき・凡例・参考文献ページを6枚のページ画像にします。head1.bmp~head6.bmpができます。

[重要] 自炊PDFの何ページ目からが「はしがき」などで、付録は何ページからか、makeapdxbmp.bat をエディタで開き正しく設定してください。以下の例では、「表紙」~「参考文献」はPDFの2~8ページ目、付録はPDFの866~973ページ目(紙面上のページ番号は859ページから)になっています。これらの数字を適切に書き換えてください。

:: はしがき・付録のBMP変換
%JAVA% zephyr.util.PDF2MonoBMP %PDF_NAME% %BMP_DIR% %DPI% 2 8 head
%JAVA% zephyr.util.PDF2MonoBMP %PDF_NAME% %BMP_DIR% %DPI% 866 973 apdx 859

makeapdxbmp.batをダブルクリックして実行すると、makeapdxbmp.bat のあるフォルダに p フォルダができて、そこにページ画像ファイルができます。head.hmlやapdx.htmlをブラウザで開くとそれらしく表示されるはずです。ページ画像の増減は、これらのHTMLファイルを手修正して対応してください。

変換には約10分かかります。

2.3.辞書本体の画像化 (makebodybmp.bat)

辞書ページを、左右に2分割した画像ファイルにします。pフォルダに、1ページ左(1a.bmp)、1ページ右(1b.bmp)、・・・・、821ページ右(821b.bmp)ができます。

すべての画像が出来た後、ファイルをサイズ順に表示して、あまりに差が大きいページがあったら、自動分割がうまくてきていません。適当なツールでそのページだけ手作業でページ画像を作成してください。

変換プログラムは、ページ上のT字型の縦横線を自動判別して、左右に分割しています。あまりに傾きが大きいスキャン結果ですと、分割がうまく行われないかも知れません。

[重要] 自炊PDFの何ページ目が辞書本文か、makebodybmp.bat をエディタで開き正しく設定してください。以下の例では、辞書本文(紙面上で1~821ページ)がPDFの9~865ページ、になっています。この数字を適切に書き換えてください。

:: 辞書本文のBMP変換
%JAVA% zephyr.util.PDF2MonoBMPDual %PDF_NAME% %BMP_DIR% %DPI% 9 865

makebodybmp.batをダブルクリックして実行すると、makebodybmp.bat のあるフォルダに p フォルダができて、そこにページ画像ファイルができます。変換には30分ほどかかります。

2.4.【任意】ゴミ画像の手動修正と再トリミング (trim.bat)

params.barのCLEAN_RANGE, IGNORE_DOTの指定に従い、ある程度のゴミは自動的に消去しますが、大きい書き込みなどは消えません。スキャン前に消しゴムで綺麗に消すか、スキャン後に適当なツールで画像ファイルから汚れを消してください。

その後、trim.bmpをエディタで開き、「:: %JAVA% zephyr.util.TrimBMP %BMP_DIR% %BMP_DIR%\__最初に変更したファイル名__」とある行を以下のように編集します。先頭の :: を消し、最後の「__最初に変更したファイル名__」を、そのファイル名(例えば123a.bmp)に変えます。よく分からなければ「%JAVA% zephyr.util.TrimBMP %BMP_DIR%」とします。trim.batをダブルクリックして実行すると、指定したファイル以降に変更されたすべての画像ファイルを再トリミングします。

%JAVA% zephyr.util.TrimBMP %BMP_DIR% %BMP_DIR%\123a.bmp

3.EBStdioによるEPWINGデータ作成

  1. EBStudioを起動し、furukawa.ebsを開く
  2. 「基準ディレクトリ」を、EPWING化ツールの解凍フォルダ(body.htmlなどがある)に設定する
  3. 「入力ファイル名」「出力先」を正しく設定する
  4. 「ファイル→実行」でEPWING化する。変換には数分かかります。

ページ画像と大量の変化形テキストがあり、300dpiで画像化した場合、EPWINGデータは870MBほどになります。

外字設定ファイルは、EPWING for the classics のものと同じです。こちらのgaiji-conf-160528.zipにある CLSEPW.map などをご利用ください。




ページ画像の拡大・縮小について

巨大なページ画像を表示するため、小さな挿絵画像の表示を前提としたEPWINGビューワーではあまり使い勝手が良くないことがあります。これはもう仕方がないかと思います。

EBWin4では、ページ画像を元のサイズ(拡大縮小なし)で表示します。ページ画像が表示された状態で「Ctrl + +」(Ctrlと+を同時に押す)で拡大、「Ctrl + -」で縮小、「Ctrl + 0」(このゼロはテンキーのゼロではなくて、oとpの上のものを押す必要あり?)で通常サイズになります。

EBPocket for iOSでは、ページ画像の横幅は iPhoneの画面横サイズになるようです(今後変わるかも知れません)。ピンチ操作(2本指で間を増減)で拡大・縮小できます。個人的には、iPadでの縦表示が最も収まりがよいと思います。

著作権とライセンス

自炊データ、EPWINGデータの不正利用は厳に慎んでください。

変換プログラムは、パブリックドメインとします。pdfbox-app-2.0.4.jarはApache PDFBoxのものです。

連絡先

このプロジェクト用のなんでも掲示板もあります。EBWin/EBStudioそのものについては、hishidaさまの掲示板のほうが良いでしょう、

謝辞

今もEPWING関連ソフトを熱心にサポートしてくださっているhishidaさまに深くお礼申し上げます。

國原先生に深く感謝致します。

(C) 2017, Katsuhiko OHKUBO.