トップページ

Project Zephyr
研究社 羅和辞典 改訂版 のEPWING化

更新履歴

[2015/03/20追記] このページで使っているのは、2010年に発売された研究社の辞書CD(ISBN: 978-4767472119)です(すでに販売終了)。
2015年4月発売(予定)のロゴヴィスタ版ではありません。
最近発売されているロゴヴィスタ辞書の一部には「1日のコピペ回数30回まで」の制限があります。EPWING化キットは、全項目を全自動コピペ出来ることが大前提ですが、ロゴヴィスタ版ではコピペ回数制限のため全文コピペ出来ない可能性があります。また、仮に全文コピペ出来たとしても、当方で対応する予定はございません。あしからずご了承ください。
ここ数年、TPPで著作権保護期間を70年に延長するか議論されています。もし50年のままだったら、田中秀央先生(1974/8/6没)の旧・羅和辞典と引用語辞典や、高津春繁先生(1973/5/4没)のギリシャ・ローマ神話辞典を自前で全文テキスト化&EPWING化し、2024年・2025年の元旦に公開するつもりです。あと10年後なら「ご期待ください!」といえるのですが、30年後になってしまうと、もはや分かりません。

[2015/05/05追記] 2015年4月発売のロゴヴィスタ版羅和辞典は、辞書データが暗号化され、コピペ回数制限があります。暗号化のため、2014年までのロゴヴィスタ辞書のようにEBWin/EBPocket/LogophileなどのEPWINGソフトで利用できません。ロゴヴィスタ版のEPWING化キットを作成する予定はありません。
参考Tweet: その1その2その3その4。EBWinサポートページの参考記事
2015年以降に販売されるものは、暗号化された辞書データになっていくようです。EPWINGソフトで使いたい方は、使えるのかどうかネットで調べてから購入することをお勧めします。

[2015/05/26追記] ロゴヴィスタからiPhone/iPad用の羅和辞典アプリが公開されました。現時点でAndroid用はまだ出ていません(参考)。

はじめに

ここで公開しているツールを使って、研究社から市販されている羅和辞典改訂版のCD-ROM(既にリンク切れ。アーカイブサイト参照)からEPWINGデータを作ることが出来ます。ただし、辞書データファイルは暗号化されているようなのでそれを参照せず(使用許諾契約書でリバースエンジニアリングは禁止されていますし、解読すると著作権法で私的使用から除外されている技術的回避手段にあたるおそれがあります。それ以前にやる気無し・・・)、UWSCを使って全項目を全自動コピペすることで全文辞書データを作ります。しかしそれだと一部の外字(長母音付きyなど)が欠落するので、全文検索用に付属しているHyper Estraier用のデータと突き合わせて欠落を埋めるようにしました。

手順は面倒ですし、手間もかかりますが、変化形見出し付きのラテン語-日本語の電子辞書は、やはり非常に便利です。

EPWING化に当たって辞書データファイルそのものを利用していないため、一部の文字や語句などが欠落している可能性があります。また、変化形データは実用上十分正しいと思いますが、完全に正しい保証はありませんし、保証出来ません。専門の学術調査などでは、書籍版や他の資料等でもご確認ください。
ご意見などは掲示板までご連絡ください。

出来ること

出来ないこと

必要なもの

動作確認環境:Windows XP、Intel i5-2500 (3.3GHz)、2GBメモリ。UWSC 4.7c、EBStudio 1.70b、EBWin 3.05。羅和辞典 Version 1.4 (2011年秋購入)。

作業手順

作業の流れ

作業内容使うもの出来るもの所要時間
1. 羅和部の全文コピペ羅和辞典ソフト、UWSC羅和全文テキスト(kenkyusha-lajp.txt、外字欠落あり)3~6時間
2. 和羅部の全文コピペ羅和辞典ソフト、UWSC和羅全文テキスト(kenkyusha-jpla.txt)~1時間
3. Estraierデータのテキスト化JavaEstraier羅和全文テキスト(estraier.txt、欠落無し、ただし大文字・カタカナのみ)1分
4. 羅和部の補正済みテキスト作成Java、コピペ&Estraier羅和全文テキスト補正済み羅和全文テキスト(kenkyusha-lajp-fixed.txt)1分
5. 羅和部のHTML作成Java、補正済み羅和全文テキスト羅和HTML(body-lajp.html、欠落無し)1分
6. 和羅部のHTML作成Java、和羅全文テキスト和羅HTML(body-jpla.html)1分
7. ラテン語変化形のHTML作成Java、羅和HTML、変化形データ(whitaker.morph.txtなど)ラテン語変化形のHTML(morph.html)数分
8. EPWING作成EBStudio, 各HTMLファイルEPWINGデータ数分

準備

1. 羅和部の全文コピペ

羅和辞典ソフトを起動し、"aを検索→項目をコピー&ペースト→「次項へ」をクリック→項目をコピペ→「次項へ」をクリック→・・・"という作業をUWSCを使って、全自動で行います。全部で45255項目あり、PCの性能にもよりますが、3~6時間ほどかかります。とは言え最初にスタートボタンを押すだけですので、後は待ちましょう。

初めて実行するときは、いきなり全文完走せず、100件以上繰り返したところでSTOPボタン、あるいはAlt+F2を押して途中終了し、kenkyusha-lajp.txtテキストファイル(UTF-8形式)が出来ていることを確認してください。このファイルはEPWING化ツールを解凍したディレクトリ(getall-lajp.uwsのあるディレクトリ)に出来ます。

処理時間短縮のため、テキストファイルへのデータ書き出しは100件毎にしか行いません。このため、途中で止めた場合、最後に記録した時以降のデータは残りません。100件未満で止めると、ファイルは出来ません。

作業手順

  1. [2017/2/24追記] 画面の拡大機能を使っている場合は、標準(100%)に戻してください。拡大したままだと、「次項へ」の位置を正しく見つけられないことがあります。
  2. 羅和辞典ソフトを起動する(辞書アプリのウィンドウを開く)。
  3. 羅和辞典ソフト以外のアプリをすべて終了する。特に羅和辞典ソフト以外でタイトルに「羅和辞典」が含まれるアプリは必ず終了しなければなりません。今このページをブラウザで開いているなら、コピペ開始前に閉じてください。
  4. UWSCを起動する。
  5. getall-lajp.uwsをUWSCに読み込ませる(UWSCの一番左のボタンをクリック、あるいはドラッグ&ドロップする)
  6. UWSCの真ん中のボタンを押し、全文コピペを行う。

最終的に以下のような内容のkenkyusha-lajp.txt (約4.7MB, UTF-8形式)が出来るはずです。最後の見出しは、本当はzȳthumなのですが、2文字目の長母音付きy(ȳ)が欠けています。バックアップをお忘れ無く。

A, a 
 indecl n 
 ラテン語アルファベットの第1字.
======
A., a. 
 《略》= Aulus; absolvo; antiquo.
======
ā1, āh 
・・・<中略>・・・
zygostata, -ēs 
 -ae, ◇m 
 [Gk] 
 計量検査官.
======
zthum 
 -ī, n 
 [Gk] 
 発酵させた麦芽からつくる飲料, ビール.
======

テキスト全選択がうまくいかないとき

UWSCでの全文コピペは、「次項へ」の右側を下向きに少しドラッグすると、テキストが全選択(青色反転)できることを利用しています。全選択できるドラッグの位置は微妙で、環境によってはうまくいかないことがあるかもしれません。

この全選択操作は、getall-lajp.uws の末尾にある
BTN(LEFT,DOWN,730,140,waitmsec)
BTN(LEFT,UP,730,160,10)
で行われます。730が画面左端からの位置、140, 160がドラッグ開始・終了の画面上端からの位置です。

全選択がうまくいかないときは、この値を調節してください。次の、和羅部の全文コピペも同じです。

2. 和羅部の全文コピペ

羅和部と同様の手順で、和羅部も全文コピペします。全部で5981項目あり、30分~1時間程度で終了します。

  1. 羅和辞典ソフトを起動する(辞書アプリのウィンドウを開く)。
  2. 他のアプリをすべて終了する
  3. UWSCを起動する
  4. getall-jpla.uwsをUWSCに読み込ませる
  5. UWSCの真ん中のボタンを押し、全文コピペを行う

最終的に以下のような内容のkenkyusha-jpla.txt (約0.7MB、UTF-8形式)が出来るはずです。バックアップをお忘れ無く。

見だし開始
	アーモンド	
	愛	あい
・・・<中略>・・・
	割れる	われる
見だし終了
アーモンド 
 (実) amygdala, amygdalum, amygdalae nucleus.
======
愛 
・・・<中略>・・・
湾 
 sinus.
======

3. Estraierデータのテキスト化

羅和辞典ソフトには、全文検索用にEstraierのデータが付いています。これから全文テキストを取り出します。これは文字の欠落は無いものの、大文字とカタカナだけになっています。

  1. 羅和辞典ソフトのフォルダがデフォルトの"C:\Program Files\KENKYUSHA\Latin"でない場合、step3.batの3行目にあるLAJPHOMEのパス名を修正する。
    [2017/2/24追記] 64bitのWindowsをご利用の方は、"C:\Program Files (x86)\KENKYUSHA\Latin"に修正してください。
  2. コマンドプロンプトを開く
  3. EPWING化ツールを解凍したディレクトリに移動
  4. step3.batを実行。以下のように表示されて、終了する(ドット一つで千件分の読み出し完了)。
    C:...>cd "EPWING化ツールのディレクトリ"
    C:...>step3.bat
    Dictionary database directory: C:\Program Files\KENKYUSHA\Latin\index\index_E
    loading Latin-Japanese entries .............................................
    done. 45255 entries

以下のような内容のestraier.txt (約4.2MB、UTF-8形式)が出来るはずです。羅和部全文コピペでは、最後の見出しの2文字目の長母音付きyが欠けていましたが、EstraierのデータではYと入っています。

A, A
INDECL N
ラテン語アルファベットノ第1字.
======
A., A.
略= AULUS; ABSOLVO; ANTIQUO.
======
01011, 0101H
INT
喜ビ悲シミ驚キナドヲ表ワスアア.
・・・<中略>・・・
======
ZYTHUM
-012B, N
GK
発酵サセタ麦芽カラツクル飲料, ビール.
======

4. 羅和部の補正済みテキスト作成

手順1と手順3で作成した羅和全文テキストを組み合わせることで、完全な羅和部のテキストを作ります。ギリシャ文字の部分など、特殊な補正作業が必要な箇所については、lajpfix.txtに記してあり、これも適用されます。

  1. 手順3に続いて、step4.batを実行。以下のように表示されて、終了する(ドット一つで千件分の読み出し完了)。
    C:...>step4.bat
    loaded 8 fix entries
    loaded 45255 entries
    fixing Latin-Japanese entries .............................................
    done. 45255 entries. 692 fixed.
    

これでkenkyusha-lajp-fixed.txt (約4.7MB、UTF-8形式)が出来るはずです。最後の見出しに長母音付きのyが付きました(フォントによっては表示できず、・になることもあります)。

A, a
 indecl n 
 ラテン語アルファベットの第1字.
======
・・・<中略>・・・
zȳthum
 -ī, n 
 [Gk] 
 発酵させた麦芽からつくる飲料, ビール.
======

エラーメッセージが出たとき

step4.batの実行中にエラーメッセージが出た場合は、全文コピペで一部の項目のコピーに失敗しています。以下の例では、「abaliēnātiō」の項に問題があった場合です。kenkyusha-lajp.txtをエディタで開いて修正するか、全文コピペをやり直してください。
*********************
ERROR: headword=abali?n?ti?     abaliēnātiō

5. 羅和部のHTML作成

手順4で作成した補正済み羅和全文テキストをEBStudio用のHTMLファイルに変換します。

  1. 手順4に続いて、step5.batを実行。

これでbody-lajp.html (約26MB、ShiftJIS形式)が出来ます。ShiftJISに無い文字は、&#x???; に変換されています。

<html><body>
<dt id="0">A, a</dt><key type="表記">a</key>・・・<dd><p>indecl n</p><p>ラテン語アルファベットの第1字.</p></dd>
・・・<中略>・・・
<dt id="45254">z&#x233;thum</dt><key type="表記" title="Gk - z&#x233;thum">Gk</key>
・・・<dd><p>-ī, n [Gk]</p><p>発酵させた麦芽からつくる飲料, ビール.</p></dd>
</body></html>

6. 和羅部のHTML作成

手順5と同様に、手順2で作成した和羅全文テキストをEBStudio用のHTMLファイルに変換します。

  1. step6.batを実行。数秒で終わります。

これでbody-jpla.html (約1.5MB、ShiftJIS形式)が出来ます。

<html><body>
<dt id="0">アーモンド</dt><key type="かな">あーもんど</key><dd><p>(実)・・・</p></dd>
・・・<後略>・・・

7. ラテン語変化形のHTML作成

Whitaker's WORDSのデータを元に、大久保が作成したラテン語変化形データから、変化形見出しのHTMLファイルを作成します。

  1. step7.batを実行。約130万件の変化形見出しを処理します。数分かかります。(ドット一つで一万件分の処理完了)。
    C:...>step7.bat
    loaded 45255 entries from body-lajp.html
    loaded 38234 entries from whitaker-dict.html
    creating morphology file .........1.........2.........3.........4.........5.....
    ....6.........7.........8.........9.........10.........11.........12.........13.
    ..
    done. 1333512 entries

これでmorph.html (約189MB、ShiftJIS形式)が出来ます。巨大ファイルです。ブラウザで開かないこと!

もし、あまりに処理が遅い場合は、ウィルスチェックソフトによるHTMLファイルの検査が行われているかもしれません。その場合、一時的にファイルチェックを止めるなどしてください。検査処理に時間がかかりすぎると、EBStudioでの処理にも失敗することがあります。

8. EPWING作成

これまでで出来た羅和(body-lajp.html)、変化形見出し(morph.html)、和羅(body-jpla.html)と、EPWING化ツール付属のWhitakerの羅英簡易辞書(whitaker-dict.html)を組み合わせて、EBStudioによりEPWINGデータを作成します。

変化形見出し(とそれから参照されるWhitaker羅英簡易辞書)や和羅部は除いても構いません。羅和部だけのEPWINGだと、最近のPCなら全文検索が約1秒で終わります。変化形付きだと10秒くらいかかります。有料のEBStudioで条件検索付きにするのも良いでしょう。

  1. EBStudioを起動し、kenkyusya-lajp.ebsを開く
  2. 「基準ディレクトリ」を、EPWING化ツールの解凍ディレクトリ(HTMLファイルの出来たディレクトリ)に設定する
  3. 「入力ファイル名」「出力先」を正しく設定する
  4. 【任意:EBStudioプロフェッショナルのみ】手順5で "set KEYTYPE=条件" したら、「インデックスの指定」で「条件検索」もチェックする。オプション→詳細設定→INDEXの「本文中の英単語を条件検索に自動登録」「条件検索の・・・を表示」はチェックしない。後方一致、クロス検索なども適宜設定する。
  5. 和羅部のカナ見出しを使えるようにするため、「前方一致かな検索」(と「後方一致かな検索」)をチェックする。
  6. 「ファイル→実行」でEPWING化する。変換には数分かかります。

正常終了すれば、「出力先」フォルダにEPWINGデータが出来ています。

著作権とライセンス

CD-ROM、全文テキスト、EPWINGデータの不正利用は厳に慎んでください。

羅和辞典EPWING化ツールは、estraier.jar以外、大久保が制作したものです。これらはパブリックドメイン扱いとします。

ラテン語変化形データは、Whitaker's WORDSのデータを元に大久保が制作したものです。これもパブリックドメイン扱いとします(商用利用を禁止しません)。

Whitaker氏のサイトは、2011年に閉鎖されてしまったようですが、アーカイブサイトで見られます。ラテン語変化形データを公開してくださった氏に感謝します。

estraier.jarは、平林幹雄氏が開発したHyper Estraierの一部です。参考ページ

メモ

EPWING化作業で気づいたことです。

和羅部の検索問題

和羅部のいくつかの項目は、「次項へ」では表示されるのに、漢字でもカナでも検索出来ないことがありました。例えば、「安楽死」は見つかるのに「あんらくし」ではだめです(「あん」を前方一致検索しても「あんらくし」が出ません)。「引力」「いんりょく」はどちらでもだめです。

EPWING版では、これらの語について、漢字でもカナでも検索できるように対策しました。

カナ見出しのない漢字見出し:安楽死, 引力, 運命, 遠慮, 顔料, 緩和, 吟味, 金利, 軍服, 訓練, 権力, 言論, 山脈, 人類学, 神話, 寸法, 全力, 洗練, 増大, 担保, 暖炉, 陳列, 連れる, 天文学, 電話, 貪欲, 難民, 任命, 年齢, 反論, 貧乏, 分別, 分裂, 弁論, 万年筆, 民族, 群れ, 綿密, 問題, 和らげる, 揺れる, 弱る, 乱用, 倫理, 連絡, 論理, 湾

上記以外にも、例えば、「いんりつ」は見つかるのに「韻律」では見つかりません。この項目を表示して「次項へ」をクリックすると「引力」の項が出ます。

最近のWindows(7 or 10)について

[2017/2/27追記] この変換キットは元々 Windows XP用に開発しました。その後、Windows 7や10では、外字を使った部分のコピペで「外字」という文字が入るようになりましたが、Windows XPでは入りませんでした。このため、変換に失敗することがありました。そこで、2017/2/27に公開した変換キットでは、コピペで入る「外字」を自動削除するようにしました。

Windowsのメモ帳で UTF-8 のテキストとして保存すると、先頭にBOMと呼ばれる特殊なデータが入ってしまいます。私の変換キットはBOMがない前提で作ってあります。何らかの事情でコピペしたテキストファイルを編集する場合は、秀丸エディタのように勝手にBOMを追加しないものを使うか、メモ帳で編集した後、何らかのツールでBOMを消して下さい。