青空文庫テキストの入手
テキストの結合
注:
- これら作業はwindowsPCならNTFSのドライブで行いましょう。自動的にファイル名順になります
- FATドライブの場合はファイルの作成順になるので順番が混乱します
- NTFSで自動ソートされる事を使ってファイル名の頭に数字を付けて順番を制御出来ます
このページに添付した
textMerge.batを使う例で説明すると
青空文庫textだけのフォルダを作り
textMerge.batをフォルダに置いて、そこに 青空文庫textのフォルダをD&D
textMerge.bat のフォルダに text.txt と title.txtが出来る
text.txtの頭に
- タイトル
- 空行
- 作者名
を入れる
青空文庫を解凍した時に出来る画像ファイルを同じフォルダに入れる
- textに挿入したファイル名の削除
- これは正規文字列置換が出来るエディタを使う必要があります(例:K2Editor等)
検索語=>[ \n■.*\n
置換語=>[ \n■
置換を使って <改行>■ファイル名<改行>からファイル名<改行>を除くと
青空文庫はファイル先頭がタイトルなので自動的にタイト-ルになります
タグの修正
AozoraEpub3が認識出来るようにしましょう
- ゴシック体 -> 太字 に置換します(その内EPub3が対応するかもしれないので気にならないならそのまま)
- 1行だけ指定のタグの一部
- これは正規文字列置換が出来るエディタを使う必要があります(例:K2Editor等)
例:
検索語=>[#改行天付き、折り返して1字下げ]\n(.*)\n
置換語=>[#ここから改行天付き、折り返して1字下げ]\n\1\n[#ここで字下げ終わり]\n
- 2重「「・・・」」は現時点では対応してないようなのでAozoraEpub3の対応を待つか置換してしまいます
- タグ中に( )があると画像ファイル名と誤認識--これは一度通してから対応した方が早い
表紙の作成
画像ファイルが入っていると自動的にソレが表紙になってしまうので
- 最新のAozoraEpub3では表紙にしない選択が可能
1つでも画像ファイルがあるテキストは表紙を作ってやりましょう
表紙.jpgのようなファイル名にし text.txt に
[#表紙(表紙.jpg)]
というタグをタイトル類の後に入れます
AozoraEpub3で変換
cd /d %~dp0
start /MIN java -jar AozoraEpub3.jar "%1"
という内容のbatをAozoraEpub3のフォルダに作ってそのバッチを起動
- 3 結合textを起動したAozoraEpub3にD&D
- 4 エラーや警告が出たら 結合textを修正
- 5 出来たepub3のファイル拡張子に.zip を追加
- 6 圧縮解凍ツールで そのzip を確認し 500kbyte以上のshtmlファイルが出来ていれば結合textに[#改ページ]を適時追加して分割させなおせよう
- 7 変換に利用した結合textと画像ファイルをこのzipに入れておきましょう
- 8 zipの拡張子を取ります
epubファイルに元textを入れておく理由
- 元ファイルを一緒に入れておけば問題があっても誰でも対応出来ます
- AozoraEpub3は頻繁に改善されています。 今問題があってもAozraEpub3が対応したらepub拡張子を.zipにしてAozoraEpub3に通すだけで改善されるかも
目次ページを入れたい
- AozoraEpub3ver1.0.7a4では nav.xhtmlが [□目次]にチェックを入れるとトップページに挿入されますから以下の手続きは必要なく、単にnav.xhtmlを編集するだけですみます
長ページ複数巻を入れている場合、リンク付きの目次ページが欲しくなります
- 1 OPS\xhtmフォルダのnav.xhtmlをcopyして0000.xhtmとする
- 2 0000.xhtmから不要な目次リンクを外す
- 3 OPSフォルダの package.opfに0000.xhtmlを入れる (sec0001を探してその上に)2箇所
この段階では横書き。横書きのままでよければそのままで。
リンクらしくするには下線付きにするなどすればいい
このリンクを使って移動すると元に戻るでこのページに戻るのが難点というか、便利かもしれない
textMerge.batの中身
このwikiのバッチやスクリプトは誰でも置換えられるので、ダウンロードしたら実行する前に中身を確認しましょう
cd /d %~dp0
cd
if %1 == / goto :SUB
pause このBATファイルと同じフォルダに text.txtとtitle.txtを作ります
:BASE
del text.txt
del title.txt
for %%I in (%1\*.txt) do textMerge.bat / "%%I" %%~nI
goto :EXIT
:SUB
echo;[#改ページ]>>text.txt
echo;■%3%4%5%6 >>text.txt
echo;■%3%4%5%6>>title.txt
type %2 >>text.txt
echo;>>text.txt
:EXIT
最終更新:2012年09月17日 17:47