クリックしてウインドウを開き、必要に応じてウインドウ幅を調節して閲覧してください。
ことばは情報伝達の基本的な道具であり、ことば無しで多少なりとも複雑な情報、意思を伝えることは出来ません。
身振りや表情も情報伝達の手段では有りますし、声の抑揚だけでもある程度の感情表現は出来ます。しかしやはり、「言葉」抜きに情報を伝え合うことが、如何に不便で制約が有るか、それは言葉の通じない外国の人と、意思疎通を図ろうとする場合を考えて見れば分かるでしょう。
しかし、音声言語は、発せられた瞬間に消え、又空間的にも限られた範囲内でしか 伝達出来ません。この、時間的、空間的な制約を解決する手段として「文字」が発明されました。
文字は、ことばを表記する為に信号化したものであり、ことばを記録として残すことが出来ます(この辺の事情は「データとファイル」で古事記を例に解説してあります)。
従って主に、モニタディスプレーを介して情報のやり取りをする、現在のコンピュータにおいても、文字の扱いは特別に重要です。(この辺の事情は、テキストファイル参照)
このページでは、コンピュータが文字をどう扱うか、そして又、コンピュータの出現で我々の文字の扱いがどのように変化したか、と言うようなことを、前掲記事とも重複しながら垣間見てみましょう。
林檎倶楽部「アダムとイブの林檎」-「言葉と人間」も参照
文字は上記のように、ことばの持つ時間的・空間的制約の解決の為、ことばを記録する方法として発明されました(結縄、絵文字、象形文字、楔形文字など)。
人間は、文字を利用して知識を蓄積し、現在に至るまでに膨大な情報を保有することになりました。それには又、その時々のコピー技術(印刷など)が大きく貢献したことでしょう。
しかし、ここでは文字一般についてではなく、「コンピュータでの文字の扱い」について考えて見ます。
最初に幾つかの基本的な用語について整理して置きます。
キャラクターとも言います。 計算機の処理対象となるデータや制御情報を表す為に定義された記号です。
字体とも言います。
上記でも若干触れた用に、コンピュータは文字そのものを処理しているのでなく、文字コード(テキストコード)を処理している。
しかし文字コードそのものを、ディスプレーに表示したり、プリントアウトしても、我々には理解し難い。そこで文字コード自体はあくまでもシステムの範囲にとどめ、我々が見慣れている文字の形を表示、或いはプリントアウトする。
この文字の形をフォントと呼ぶ。
コンピュータやプリンタには、文字コードに対応したフォント情報が組み込まれていて、表示、プリントが出来る。
字形は、印字された個々の文字、或いは具体的に書かれた個々の文字の形を言うが、フォント(字体)といった場合、英数字やかな、漢字などの一組の字種に対し、共通的、統一的に決められた字形の組を言う(明朝体、ゴシック体など)。
※ コンピュータは、全てのデータを最終的に(コンピュータからすれば最初に、と言うことか)2進数のマシン語として扱います。
(バイナリファイル参照)
文字も例外ではなく、全てコンピュータで扱う文字は、コンピュータ内部では全て数値に置き換えられます。現在ではソフトウエアの発達によって、我々一般ユーザはその数値情報での処理作業に関する知識は殆ど不要です。
文字コードとフォントが定義されることにより、コンピュータで文字情報を扱うことが出来るようになりました。
しかしコンピュータの機種や、システム毎に異なる文字コードやフォントが使われるとしたら、あるコンピュータシステムで作成した文字データを、別のシステムで利用しようとした時、意図した文字が表示されない、と言うことが起こります(文字化け)。
そこで文字コードの標準化が図られ、システムの違いを超えて使われるようになりました。
しかし、現実にはコンピュータの世界で、只一種類のコード体系が使われている、と言うわけではなく、幾つかのコード体系が並存しています。
(テキストコード参照)
スタンドアロン(使用がそのコンピュータだけに留まる場合)は別として、ネットワーク、或いはデータの受け渡しなどの場合、コード体系の違いを考慮する必要が有ります。
コンピュータは元々、計算の道具として誕生したのですが、出現当初から文字を扱う研究が続けられてきました。
当初はその性能上の制約から充分ではなかったものの、その後、処理速度の向上、記憶容量の増大、そして何よりソフトウエアの発達などにより、今や文字情報の操作、処理の、なくてはならない道具となっています。
※ コンピュータで文字を扱う、というと、直ぐワープロソフトを思い浮かべるかも知れません。これはかっての「ワードプロフェッサー、ワープロ専用機」のイメージから来ているのだろうと思います。
パソコンで、日本語を扱う機能、つまり仮名で入力し、漢字に変換する機能は「日本語入力機能」です。この辺の詳細は
「日本語入力」を参照して下さい。
テキストは、 文字(キャラクタ)がランダムではなく、ある一定の意味を持って並んでいるものを言います。具体的には、手紙、小説、論文等などです。
これらのテキストをコンピュータで扱うには、上記のようにテキストを構成する文字を、文字コードに置き換える処理が必要です。このように処理・作成されたデータを「電子テキスト」と呼ぶことが有ります。
今読んでいただいているこの文章も、電子テキストです。
一旦電子テキスト化すると、そのテキストの構造によって、さまざまな処理がコンピュータによって可能になります。
単に文字が並んでいるだけのテキストを「フラットなテキスト」と呼ぶことがあります。フラットなテキストであっても、電子化されたものは、用語検索などで、「どう言う言葉がどの位使われているか」、などを調べることは出来ます。同じことを「紙の上のテキスト」で行うことも出来ますが、電子テキストに比べ、格段に手数が掛かります。作品によっては一生ものの仕事になりました。
それに対し、テキスト作成の時点で、例えば、ページや見出し、章の切り替えなどの情報を、コンピュータがそれと分る形で明示的に定義しながら作成されたテキストを「構造化されたテキスト」と言います。
構造化されたテキストは、コンピュータが処理しやすいように、テキストに付加価値を組み込んだもの、と言えます。
HTML(ハイパー・テキスト・マークアップ・ランゲージ)などはその代表とも言えるでしょう。
「構造化されたテキスト」のうち、特に情報の意味、内容を分析し、構造を事前に厳密に定義し、情報を全て同一の構造に表現する手法によって構築された情報を「データベース」と呼びます。
コンピュータの利用は、 それまでの文書取り扱いに比べ、作成、読み込み、分析、翻訳などの作業を格段にスピードアップし、かつ正確に自動的に綺麗に行うことが出来るようになりました。
しかし、それだけに留まらず、従来の「紙の上」での取り扱いでは不可能であったような、文字取り扱いの方法を開きました。
「紙の上」では、手書きであれタイプライターであれ、文章の頭から順に書き進めるのが普通でした。
しかし電子テキストの作成現場では、語句や文章の挿入・削除、順序の入れ替え、体裁の変更などが簡単に出来ます。
思いつくままに書きはじめ、後から順番を入れ替えたり、頭を付け加えたりが自由に出来ます。
コンピュータでの文章取り扱いは、単に技術的な側面だけでなく、文章作成の際の、人間の思考パターンにも影響を与えることになった、と言えるでしょう。