読書メモ

・「図解雑学 文字コード
(加藤 弘一:著、ナツメ社 \1,300) : 2007.04.18

内容と感想:
 
家庭にもパソコンが普及し、Webやメールでインターネットを利用しているユーザも多いだろう。 ブラウザでいろんなサイトの情報を閲覧したり、メールを読み書きできているのも「文字コード」が あってこそ。これがなければパソコンもただの箱と言っても過言ではない。
 今やパソコンだけでなく携帯電話でも様々な情報を読み書きできるが、何気なく使っているそれらの 画面に表示されている日本語(英語や他の言語もある)は、パソコンなどの機械がやり取りしたデジタルなデータを 人間が見て文字と分かる形に変換しているのだ。
 本書ではそもそも文字コードとは何か、パソコンなどで文字を表示したり、プリンタで印刷する仕組みや 文字化けする理由なども知ることができる。
 日本語に限って言えば、よく使うものから、ほとんど使われないようなものまで多くの漢字があるが、 それらをコードにする(符号化)に当たっては規格化が必要となる(メーカーごとに独自のコードを作るのは無駄だし、互換性がとれない)。 その規格化の歴史や現状が主に書かれている。 中国や台湾、韓国、インドなど外国の動向や、漢字など多バイトコードを使えることに日本の貢献が大きかったことも強調されている。 また、世界各国の文字のルーツや変遷などにも触れていて興味深い。
 現在、日本の住基ネットでは電子的に表記できない人名・地名(に使用される漢字)を多量に残したままで運用されているそうだ。 そのシステムで使用されている文字コードは「統一文字コード」と言われる独自のコードであり、規格化・標準化されたものではないそうだ。 しかも公式にそのコード構造は公開されておらず、閉鎖的なシステムであることの問題点も著者は指摘している。 しかし、そんな状態で行政は業務に支障はないのだろうか。不思議である。

○ポイント
・インターネットは多言語文字コード「ISO 2022」を土台に構築されている。膨大なデータ資産もあり、2022がなくなることはないだろう。 ネットで漢字が使えるのは和田弘氏が多バイトコードによる符号化の必要性を訴えてくれたおかげ。
・「ISO 10646」はユニコード・コンソーシアムの働きかけで制定された。UCSとも呼ばれる。2022とは互換性がない。収録漢字は7万字。32ビット文字コード。ユニコードは16ビット。
・アラビア文字は単語中の文字の位置によって字形が変化する。アラビア語は右から左へ書く。ユダヤ文字(ヘブライ角文字)とは兄弟関係にある。
・字体包摂:複数の似た字体を同一字としてみなすこと。その範囲を粒度という。
・EUC: シフトJISよりも高機能で洗練された文字コード。UNIX環境で使われ始めた。中国や韓国のパソコンでは標準。
・Eメールで半角カナが使用できないのはISO 2022-JP がJISカナを除外しているため
・ハングルは結合音節文字。初声(子音)、中声(母音)、終声(子音)の3つで1文字を構成。韓国では公文書から漢字を追放。
・UTF: ユニコードをネットワークへ送り出すための変換方式
・UTF-8: ASCIIとの互換性を維持。ASCII以外は2〜6バイトの不定長符号に変換。ユニコード符号化の本命
・多言語(国際化)ドメイン名:従来の英数字とハイフンのみのドメイン名から、自国語の表記を可能にするもの。DNSサーバで名前解決するにはACE形式に変換して送信する。
・イスラム教はコーランの翻訳を禁じている。アラビア語で読誦することを義務づけている。
・亀の甲文字:日本でいうゴシック文字。ヒトラーはその使用を廃止
・インドには18の公用語と10種の文字がある。その複雑な国情からIS 1319という規格をインドの国家規格として策定した。
・Mule: エディタ「Emacs」の多言語化したもの。その後、XEmacsに統合され、現在はEmacsの一部になった。
・UTF-2000: 全ての文字の1つ1つの頭に、その文字がどの文字コードかを示す識別符号を付ける
・ベトナムの国字:字喃(チュノム)。ほとんど日本の漢字と同じ
・今昔文字鏡:文字セットのデファクト標準。漢字データベースとフォント・ライブラリ。フォントを無償公開
・海外向け文字配信システム:日本語未対応パソコンで日本語のWebページを閲覧するためのシステム。文章を文字画像の集まりとして配信

-目次-
1 文字コードとはなにか?
2 日本語とコンピュータの出会い
3 迷走する日本語文字コード
4 国際標準の影で
5 日本の国際貢献