青空文庫 明日のそらもよう



2000年12月31日
樋口一葉『大つごもり』を登録する。

二十世紀もきょうで終わり。
この1年、青空文庫にも、いろいろなことがあった。
あれこれと悩んだり立ち止まったりしながらも、青空文庫は、明日、新しい世紀を迎える。無事にここまで来ることができたのも、青空文庫を見守り、手をさしのべて下さったみなさんのおかげ。この場を借りて、お礼を申し上げたい。
我々ができることはささやかだけれど、二十一世紀も、できることを、できる範囲で、地道に続けていきたいと思う。明日からの二十一世紀、引き続き、青空文庫をよろしくお願いいたします。(LC)


2000年12月19日
第3第4水準を表示できるフォント、Kandataが更新された。
新しい1.7.2版では、旧版に残っていたこれらの問題点が解消されている。
Windows版は、ここから
Macintosh版は、こちらからダウンロードできる。

Windows版のKandataを収めた一式には、「tar.gz」という拡張子がついている。
Unixでよく使われる、圧縮形式のものだ。
解凍に不安のある方は、このページで、「2.Lhaplusで解凍、圧縮する」の項を参照してほしい。

Kandataと、これも第3第4水準に対応したHabianの両フォントは、wakabaさんという個人が開発し、公開してくれたものだ。
その内のKandataについては、先日wakabaさんから「1.7.1版を最終とし、これ以降の更新は行わない」旨の意思表明があった。
「ならばKandataの保守は、私が引き継ごう」と、内田明さんから声があがったのは、その直後だ。
生みの親の元を離れ、kandataは新しい育ての親の元で成長を続けることになった。
今回の1.7.2版は、内田さんによるKandata補完計画の最初の成果である。

「使える漢字が増える」ことに加え、第3第4には、アクセント符号付きのラテン文字を表示できるという旨味がある。
ただし、2バイトのラテン文字がプロポーショナル化されないと、このメリットは生かせそうもない。
まず扉を開く、ラテン文字のプロポーショナル化。
そこからファイル中のラテン文字を2バイト化し、外字としてきたアクセント符号付きのものにコードをあてる。
こうして仕立て直したテキストを、T-Timeなどにうまく表示してもらうには、個々のソフトの開発者にも、対応をお願いしなければならないだろう。
この道筋には、たくさんの課題が手つかずのまま山積している。
ラテン文字のプロポーショナル化という最初の関門を、もしもKandata補完計画が開いてくれたなら、来年にはここでも成果を残せるかも知れない。(倫)


2000年12月10日
第3第4水準を表示できるフォント、Habianが更新された。
最新の1.7.1版では、旧版にあったこれらの誤りが訂正されている。
Windows版は、ここから
Macintosh版は、こちらからダウンロードできる。
旧版をお使いの方には、新版への差し替えをお願いしたい。(倫)


2000年12月4日
森鴎外『護寺院原の敵討』を登録する。
人づてに聞く噂だけを頼りに、徒歩で旅をし、敵を討つ。インターネットで情報を操り、高速の乗り物に慣れた現代人から見れば、想像も付かないほどの気の長い話だ。そこには執念と諦念とが入り交じる、不思議な感情がある。
望む暇さえもなく有形無形のさまざまなものを手に入れるようになって、人間が忘れたものは、全身全霊を傾けて何かに執着するということなのかもしれない。
入力は砂場清隆さん、校正は菅野朋子さんです。(LC)


2000年12月1日
第3第4水準を表示できるフォント、Kandataが更新された。
最新の1.7.1版では、旧版で確認されていたこれらの誤りが訂正されている。
Windows版は、ここから
Macintosh版は、こちらからダウンロードできる。
旧版をお使いの方には、新版への差し替えをお願いしたい。

Kandataを作ってくださったwakabaさんからは、今回の1.7.1を最終の版にしたいとの意向が示された。
これまで確認されていた漢字部の誤りはすべて修正されたが、実は非漢字部には、1.7.1版でもまだ、誤りが残されている。
ならば「その直しは引き受けよう」という方が、wakabaさんの更新終了宣言を受けて現れた。
Kandataは、新しい育ての親の元で、成長を続けるかも知れない。
成果が上がれば、この欄でもご報告したい。(倫)


2000年11月5日
夏目漱石『一夜』『琴のそら音』『趣味の遺伝』を登録する。漱石初期の3作を加え、『明日の本棚』の本は20冊、漱石の作品が10冊となった。
いずれも入力は柴田卓治さん、校正はLUNA CATです。(LC)


2000年10月22日
黒島伝治『「紋」』を登録する。
猫にかこつけて飼い主の老夫婦を排除していく人々の意識は、「いじめ」にも通じるものがあるのかもしれない。何度も戻ってくる猫に、人々の冷たい視線は、次第にエスカレートしていく。それでも猫にあたたかい目を向けるおりくの優しさが切ない。
入力は大野裕さん、校正は富田倫生さんです。(LC)


2000年10月20日
JIS漢字コードの第1から第4までにある文字をたやすく見つけ、入力できるようにと考えて、「新JIS漢字総合索引」を準備した。
「青空文庫『明日の硯箱』」に置いてある。
「総合索引」は大きく「部首・画数索引」と「音訓索引」からなり、日本語の文脈でよく使う記号を集めた「記号一覧」が付録。導入から使いかたを説明した新しい一節を、「新JIS漢字時代の扉を開こう!」に加えた。ちょっとした利用の知恵めいたことも書いているので、「New【「新JIS漢字総合索引」を使ってみよう】」には、是非目を通してほしい。

書籍の電子化に手を着けると直に、仮名漢字変換モジュールからはすぐに出てこない文字に突き当たる。
そんなときは、ワープロ字典のようなものを当たって、JISにあるかないか、あるとすればコードは何なのか、調べるしかない。
底本の文字と、画面やプリントアウトの形が、微妙に食い違っていると気付くこともある。「どんぴしゃの同じ形の字が、他にあるのではないか」と探したあげく、「やはりこれしかなさそうだ。けれど、微妙に違う。これで入れて良いのか悪いのか」と、立ち往生する人がでてくる。
注意深く、細かく見る人ほど、その傾向が強い。

こうしたハードルを乗り越えて作業を進めるには、ワープロ字典に相当するものと、細かな字体差を区別するのかしないのかを定めたルールブックを、手許にそろえておく必要がある。
無料で入手できるものがあれば、それに越したことはない。
本日公開した「新JIS漢字総合索引」は、このうちの、タダの電子ワープロ字典として使ってもらえる。
再配布や改変も、青空文庫への連絡や承諾なしに、進めてもらってかまわない。

字体差の取り扱いに関するルールには、「包摂規準」という名前で、JIS漢字コードが定めたものがある。
JIS漢字コードの枠内で、これが定めた包摂規準に従って電子翻刻を進めるのは、明快で素直な方針だと思う。青空文庫も、このやり方をとっている。
ただし、入力や校正にあたる人にルールに従った取り扱いを求めるのならば、今回の「新JIS漢字総合索引」と同様に、ルールブック(「包摂規準詳細」)も、公開できるファイルとして用意しておく必要がある。
JISの側からも、規格にかかわる文書公開の動きがある。
これが実現しそうなら、「包摂規準詳細」に関してはお任せしたいが、滞りそうならとっと自分たちで用意した方がよいだろう。(倫)


2000年10月16日
「コンピュータで本を読めるか」という議論をすると、決まって「コンピュータでは使える漢字に制限がある。だから文学作品は読めない」というような意見が出てくる。確かに、パソコンが日本語を扱えるようになってからの歴史は、さほど長くない。そして、これまでパソコンの世界で扱う文字は、現代の日本語を読み書きするための文字を中心に考えられてきた。
ここ数年での、パソコンの世界の変化はめまぐるしい。記憶容量も、10年くらい前の数百倍になり、数多くの漢字を扱う余裕もできてきた。それに伴って、たとえば芥川龍之介や夏目漱石の作品を、コンピュータで読むというようなことが、当たり前のこととして考えられるようになってきている。そういう時代の流れのひとつとして、新たに第3、第4水準を含む新JIS(JIS X 0213)が登場した。
青空文庫では、JIS第1、第2水準に含まれない文字を外字として扱っている。テキストファイル中では、記号と注記とで外字を表現しているため、作品によっては、記号と注釈だらけになってしまう。しかし、第3、第4水準で新しく定義された文字コードを使い、新JIS対応のフォントで表示すれば、記号と注釈ではなく、普通の文字として表示できるのである。
この8月、青空文庫では、「明日の本棚」を用意して、「新JISで表示すると、こんなふうに普通に読める」というサンプルとして、何冊かの本を公開してきた。今回公開する森鴎外『うたかたの記』で、16冊目になる。
これまでの約2か月間は、あまりおおっぴらに本棚の存在を知らせていなかったけれど、いくつかの道具立てが揃ったのを機に、青空文庫のトップページにも見出しを立てて開けるようにした。そして、お知らせのページとして、「明日のそらもよう」を用意することにした。
ここでは、この小さな本棚をめぐるさまざまなできごとを、記していきたいと思う。時々、明日の天気を見に来て、本を読んでみていただければ幸いである。(LC)

明日の本棚 トップページへ
青空文庫トップページへ