「蜘蛛の糸」×「でんでんコンバーター」→EPUB
前回は面倒くさくってやめてしまった「でんでんコンバーター」にもう一度チャレンジすることに。
今回はすでにマークダウン記法が必要ということがわかっているので、平常心で望めるはず。
そして今回取り扱う書籍は「蜘蛛の糸」(芥川 竜之介著)
理由は、短いからそして何十年ぶりかに読んでみたくなったから。
それでは、青空文庫さまの「蜘蛛の糸」図書カードページからテキストデータをダウンロード
今回はマークダウン記法に準じていくので不要なタグのない(HTMLではなく)、テキストファイル(ルビあり)の92_ruby_164.zipをダウンロードしました。
さっそくZIP解凍して中をみてみると・・・
あれ、これはこれで微妙に見慣れないタグが入っている。これが青空文庫形式のタグか。なるほど。
プレーンなテキストでないので、どうかと思いましたが、このタグは置換に使えるかもしれませんので、このまま使用します。
作品名と著者のすぐ下にこちらの注意書きがあります。
———————————————————
【テキスト中に現れる記号について】
《》:ルビ
(例)蓮池《はすいけ》のふち
|:ルビの付く文字列の始まりを特定する記号
(例)丁度|地獄《じごく》の底に
[#]:入力者注 主に外字の説明や、傍点の位置の指定
(数字は、JIS X 0213の面区点番号、または底本のページと行数)
(例)※[#「特のへん+廴+聿」、第3水準1-87-71]
———————————————————
「※」じるしだけは綺麗にしておきたいですね。
ということで、テキストデータ内の「※」を検索します。全部で18個ありますね。
18個ありますが、全部同じこちらです。
※[#「特のへん+廴+聿」、第3水準1-87-71]
第3水準ってなんだ・・・青空文庫のデータは著作権保護期間が過ぎたものが大半なので昔の字がたくさんつかわれていたりします。
そして第3水準というのは辞書で調べると、はみ出しものたちということでしょうか。
1990年11月に制定された漢字の規格。JIS第1水準、JIS第2水準のJIS漢字コードに含まれない、業種によって必要になる特殊な記号など、約5800字が定められている。第1水準、第2水準に追加したものではなく、別の規格。新漢字コード体系とも呼ぶ。
細かいことはおいておいて、とりあえず、「犍」の字をあてます。テキストエディタで全置換します。
※[#「特のへん+廴+聿」、第3水準1-87-71]
↓
犍
※[#「特のへん+廴+聿」、第3水準1-87-71]は犍に置き換わりました。
文中の変な記号は、ルビと字下げの中見出しの2種類だけになりました。
ここまでできたらテキストデータを保存します。
このときテキストエンコーディングはShift-jisではなく、UTF-8で保存しましょう。
青空文庫からダウンロードしたテキストデータはShift-jisになっているので注意しましょう。
これで下ごしらえは終了。
次回は、「でんでんコンバーター」にEPUB変換してもらえるようにマークダウン方式に従って記号(タグ)を加えていきます。
0.EPUB変換、WEBサービス「でんでんコンバーター」はすごすぎるのか?でも無理だった
買うまえに無料サンプルでためしてる?Kindleの試し読みが増量。で、どれくらい無料でよめるの?
知らなかった・・・楽天Koboライティングライフ(β)始まっていた
雑誌・コミックスだけじゃない、小説もPC(ブラウザ)で読めるよ!洋書限定・・・だけどKindle Cloud Reader(キンドル クラウド リーダー)
KDP Pricing Support (Beta)とは?あなたの電子書籍いくらで売る、販売価格の決定をサポート
Kindleで購入した電子書籍がPC(ブラウザ)でも読める!Kindle Cloud Reader(キンドル クラウド リーダー)、まずは雑誌・コミックスなどから!
絵本(児童書)制作ツール「Kindle Kids Book Creator(キンドル キッズ ブック クリエイター)」を使うと簡単に電子書籍の絵本はできるのか?