トップページ

Project Zephyr
古川春風『ギリシャ語辞典』の変化形付きEPWING化

更新履歴

はじめに

古川春風先生の『ギリシャ語辞典』を何とかEPWINGで使えないか、変化形検索も出来るようにならないかと考えていて、自炊PDFからページ画像を切り出し、ページ画像を検索するEPWINGにすることを思いつきました。各ページにあるはずの見出し語は、Persus Digital Libraryで電子テキスト化済みの LSJ の見出しとしています。LSJにあって古川辞典に載っていない語も見つかるのですが、全見出しのテキスト化をサボったための食い違いとしてご容赦ください。

私は、古典ギリシャ語を正式に学び始めてまだ数ヶ月です(2016年秋開始)。αからωまですらすら言えないレベルです。今後、授業で使い勝手を確かめながら、あれこれ更新していく予定です。気長におつきあいください。

シュタウブ希和辞典についても、近日、同様のものを公開予定です(もう自炊済みです)。

検索画面例

見出し検索

検索語が載っているであろうページの画像を表示します。この例では1006ページの右側です。辞書本体の見出しとして検索できるのはLSJに載っているものだけです。ページ番号でも検索できます。

スクロールして目的の語を探します。

iPad mini Retinaでの表示例(クリックでフルサイズ表示)。

変化表の表示

Perseusのもの(らしい)ギリシャ語変化形データを、表形式にまとめたものも見られます。名詞・動詞・形容詞のみ収録しています。見出し語の右端に # が付いています。

このような表形式にまとめて分かったのですが、変化形が載っていないものや、一部欠けているものも目に付きます。表中では --- としたり、表自体を載せていません。正しくない変化形情報もあります。信用しすぎないで下さい。

attic(アッティカ方言)以外のものは、表の中で {...} で語を出し、表の下に変化形情報を載せています。

変化形から辞書検索

変化形を検索すると、その変化形情報と元の形が分かります。元の形をクリックすると、それが載っているであろうページ画像にジャンプしますので、スクロールしてその語を探します。

前書き・付録など

メニュー検索で、前書きや付録の各ページも見られます。




EPWING化に必要なもの

動作確認環境:Windows 7 (32bit)、Intel i5-2500 (3.3GHz)、3GBメモリ。EBStudio 1.70b、EBWin 4.3.3.0。




1.古川辞典の自炊(PDF化)

私は以下のように自炊しました。スキャンの設定によっては、次のEPWING化でうまく行かない事があるかも知れませんが、免責とさせてください。

  1. 古川辞典をキンコーズで断裁してもらう。約1000円。
  2. ScanSnap iX500で全ページ(書名ページから奥書まで)スキャンしてPDF保存(約130MB)。PDFはモノクロ画像に変換にしますので、カラーモードは「グレー」ではなく「白黒」がおすすめです。
    ScanSnapで一度にスキャンしてPDFに出来るのは1000ページまでです。それ以上になるとスキャンが止まります。ただし紙送りは数ページ分進みすぎることがあり、その修正が面倒になります。50枚(100ページ)ずつスキャンして、900ページを超えたらいったんそこでPDFとして保存し、それ以降を新たなPDFファイルとし、あとで2つを結合すると面倒がありません。

2.PDFのページ画像化

2.1.パラメータ設定 (params.bat)

params.batをエディタ(メモ帳など)で開き、PDF_NAME, DPI, MARGIN, WHITE_RATIOの設定を確認します。PDFファイル名など、適宜変更します。

DPIは200にしても一応見られますが、気息記号などの判別が苦しい事があります。

MARGIN, WHITE_RATIOは、余白部分の自動削除のためのパラメータです。時々ゴミの黒ドットが載る事があるため、多少の黒ドットは無視できるようにしています。WHITE_RATIO=0.01なら、縦方向・横方向の全ドットのうち、黒ドット数が1%以下なら余白と判定します。余白と判定した部分をすべて取り除くと、文字の一部が欠けてしまう事があるので、MARGINドットは余白部として残すようにしています。

@ECHO OFF

::変換するPDFファイル名
set PDF_NAME=furukawa-greek.pdf

::出力画像の解像度 [dpi]
set DPI=300

:: 余白削除のパラメータ
::: MARGIN 残す余白のドット数
::: WHITE_RATIO 余白と判定する閾値
:::   縦・横ドット数 * WHITE_RATIO 以下の色つきドットは余白とみなす。
:::   スキャン画像にある多少の黒ドットは無視するため。
set MARGIN=20
set WHITE_RATIO=0.01
・・・

2.2.前書き・付録の画像化 (makeapdxbmp.bat)

前書きページ(序~略語表)を8枚のページ画像にします。head1.bmp~head8.bmpができます。1229ページ以降の付録は、apdx1229.bmp~apdx1317.bmpになります。

[重要] 自炊PDFの何ページ目から序で、付録は何ページからか、makeapdxbmp.bat をエディタで開き正しく設定してください。以下の例では、序はPDFの3~10ページ目、付録~奥書はPDFの1238~1326ページ目(付録の先頭ページは1229ページで変更不要)、になっています。これらの数字を適切に書き換えてください。

:: 前書き・付録のBMP変換
%JAVA% -Dmargin=%MARGIN% -DwhiteThresh=%WHITE_RATIO% zephyr.util.PDF2MonoBMP %PDF_NAME% %BMP_DIR% %DPI% 3 10 head
%JAVA% -Dmargin=%MARGIN% -DwhiteThresh=%WHITE_RATIO% zephyr.util.PDF2MonoBMP %PDF_NAME% %BMP_DIR% %DPI% 1238 1326 apdx 1229

makeapdxbmp.batをダブルクリックして実行すると、makeapdxbm.bat のあるフォルダに p フォルダができて、そこにページ画像ファイルができます。head.hmlやapdx.htmlをブラウザで開くとそれらしく表示されるはずです。ページ画像の増減は、これらのHTMLファイルを手修正して対応してください。

変換には数分かかります。

furukawa-greek.pdf 変換開始
head1.bmp head2.bmp head3.bmp head4.bmp head5.bmp head6.bmp head7.bmp head8.bmp

furukawa-greek.pdf 変換終了
furukawa-greek.pdf 変換開始
apdx1229.bmp apdx1230.bmp apdx1231.bmp apdx1232.bmp apdx1233.bmp apdx1234.bmp ap
dx1235.bmp apdx1236.bmp apdx1237.bmp apdx1238.bmp apdx1239.bmp apdx1240.bmp apdx
・・・
apdx1309.bmp apdx1310.bmp apdx1311.bmp apdx1312.bmp apdx1313.bmp apdx1314.bmp ap
dx1315.bmp apdx1316.bmp apdx1317.bmp
furukawa-greek.pdf 変換終了
リターンキーを押すと終了します

2.3.辞書本体の画像化 (makebodybmp.bat)

辞書ページを、左右に2分割した画像ファイルにします。pフォルダに、1ページ左(1a.bmp)、1ページ右(1b.bmp)、・・・・、1227ページ右(1227b.bmp)ができます。

すべての画像が出来た後、ファイルをサイズ順に表示して、あまりに差が大きいページがあったら、自動分割がうまくてきていません。適当なツールでそのページだけ手作業でページ画像を作成してください。

変換プログラムは、ページ上のT字型の縦横線を自動判別して、左右に分割しています。あまりに傾きが大きいスキャン結果ですと、分割がうまく行われないかも知れません。

[重要] 自炊PDFの何ページ目が辞書本文か、makebodybmp.bat をエディタで開き正しく設定してください。以下の例では、辞書本文(紙面上で1~1227ページ)がPDFの11~1237ページ、になっています。この数字を適切に書き換えてください。

:: 辞書本文のBMP変換
%JAVA% -Dmargin=%MARGIN% -DwhiteThresh=%WHITE_RATIO% zephyr.util.PDF2MonoBMPDual %PDF_NAME% %BMP_DIR% %DPI% 11 1237

makebodybmp.batをダブルクリックして実行すると、makebodybm.bat のあるフォルダに p フォルダができて、そこにページ画像ファイルができます。変換には30分ほどかかります。

3.EBStdioによるEPWINGデータ作成

  1. EBStudioを起動し、furukawa.ebsを開く
  2. 「基準ディレクトリ」を、EPWING化ツールの解凍フォルダ(body.htmlなどがある)に設定する
  3. 「入力ファイル名」「出力先」を正しく設定する
  4. 「ファイル→実行」でEPWING化する。変換には数分かかります。

ページ画像と大量の変化形テキストがあり、300dpiで画像化した場合、EPWINGデータ1.3GBほどになります。

外字設定ファイルは、EPWING for the classics のものと同じです。こちらのgaiji-conf-160528.zipにある CLSEPW.map などをご利用ください。




ギリシャ文字のローマ字検索について

EPWING for the classicsと同じです。

ただし、自分自身がギリシャ語を学ぶようになって、実際に使ってみると、ε=η=e、ο=ω=oでは、ηやωの方を探したい時に不便だと感じました。このため、η=h、ω=wでも検索できるようにしてみました。例えば、Σωκράτηςは Sōcratēs (socrates)でも Swcraths(swcraths)でも見つかります。今後、ローマ字検索の方法については変更するかも知れません。

ページ画像の拡大・縮小について

巨大なページ画像を表示するため、小さな挿絵画像の表示を前提としたEPWINGビューワーではあまり使い勝手が良くないことがあります。これはもう仕方がないかと思います。

EBWin4では、ページ画像を元のサイズ(拡大縮小なし)で表示します。ページ画像が表示された状態で「Ctrl + +」(Ctrlと+を同時に押す)で拡大、「Ctrl + -」で縮小、「Ctrl + 0」(このゼロはテンキーのゼロではなくて、oとpの上のものを押す必要あり?)で通常サイズになります。

EBPocket for iOSでは、ページ画像の横幅は iPhoneの画面横サイズになるようです(今後変わるかも知れません)。ピンチ操作(2本指で間を増減)で拡大・縮小できます。個人的には、iPadでの縦表示が最も収まりがよいと思います。

著作権とライセンス

自炊データ、EPWINGデータの不正利用は厳に慎んでください。

変換プログラムは、パブリックドメインとします。pdfbox-app-2.0.1.jarはApache PDFBoxのものです。

連絡先

このプロジェクト用のなんでも掲示板もあります。EBWin/EBStudioそのものについては、hishidaさまの掲示板のほうが良いでしょう、

謝辞

今もEPWING関連ソフトを熱心にサポートしてくださっているhishidaさまに深くお礼申し上げます。

(C) 2017, Katsuhiko OHKUBO.