読者です 読者をやめる 読者になる 読者になる

狸系の里 シーズン2

はじめの一歩、二歩、散歩・・

計算機可読資料(データ)の揃えかた

情報技術を使うには計算機可読なデータが必要になる。文書や音のような資料を計算機可読な形式にする方法は幾通りも考える事ができる。所与の資料から計算機可読なデータを作る作業は避けられないが同時に作業には手数がかかるので、資料と同程度の期間、資料に代って利用できる、いわば書誌学で言う写本相当の位置付の、計算機可読データを揃える事になる。計算機可読データの良さの尺度は元資料を忠実に再現しているかに置かれる。見栄え(聴きごたえ)に配慮して加工しすぎるのは(資料の写本という意味からは)好ましくはない。

 

伝統邦楽を収集した音源資料などの資料は、意外な位、普通に市販されている。手元には催馬楽・朗詠譜、真言宗の声明譜に関する書籍、天台宗の声明譜に関する書籍、様々な伝統譜を引用し解説した出版物、伝統邦楽に関するCDなどが手元にあり、個人の趣味の範囲でこれらの資料に当たる分には充分な量、纏まっている。印刷資料やCDは計算機可読資料ではない*1ので、相当する内容をもつ計算機可読資料を捜すか作るかすることになる。

 

計算機可読データは形式ごとに個性があるので、目的に合った形式を選ぶことになる。あとあとまで考えると結構いろいろな要因を考えなければならないことが判る。

例えば文書資料の場合、計算機可読データを作るには、頁をそのまま写真に撮ってこの写真をイメージデータ化する方法と、頁に書いてある内容を読んだ結果を符号化文字集合の要素を使ってテキストデータ化する方法とがある。

イメージデータ化する方法は文書を読むことなく見るだけで実行できるので、資料をまず用意する段階に向いている。文書の頁をイメージデータ化する方法では、頁の全体を写真に収める事ができれば、写真を作って以降は機械的な手順で進む*2。撮影のために文書をセットする時に頁が曲がることがあり、この歪みはデータを利用する側で対応することになる。

文書を読んで符号化文字を使ってテキストデータ化する作業には、文書の見間違い、符号化文字の選択ミス(文字入力時の誤り)が起こるので、資料として完成するまでには慎重な検査が要る。そのため、文書を読み、検査するための担当者が必要になる*3。さらに符号化文字集合を並べて文書を計算機可読データ化するには符号化文字の並べ方に関する基準を計算機可読化する*4必要があるが、楽譜のように歌詞と音とから成る複数の流れを記録する文書のための自然な*5記述言語は、これ自身を選ぶ事から始めなければならない。このときには次を配慮する。

標準化された記述言語は設計・実装・維持を標準化団体と共同で進める。自分で設計し実装した記述言語は維持についても自分で行うか、共同して維持を進めるための標準化団体を興す。

 

音資料については、最近のオーディオ技術はそれ自身がディジタル信号処理技術をベースにしているので、文書資料のように音源作成の段階でディジタルデータ化する作業が要求される事はないと言える。(資料館関係者がアナログテープの形式で維持している資料をディジタル化する場合を除く。)

配慮する所は、楽譜に対する文書記述言語を選ぶ場合のように、波形よりもう少し内容よりの所で使う技術の選び方にある。以下、楽譜の読み方、音の録音状態に関連して基準を二つ示す。まず、楽譜の読み方について。

対象を音楽に選ぶ場合、情報技術の利用目的はある基準(楽典)に基づいて作られた音の特性を調べる事に置かれる。この調査では、基本的に、音を作る基準については未知というところからスタートする。例えば伝統邦楽の場合、音楽は口伝で継承され、継承の要点が楽譜に書いてある。つまり、楽譜を演奏するのではなく、演奏時の要点が楽譜に書いてある。書かれていることと内容については時に大きく乖離することがある。例えば「鮎」という図形は日本語の文脈では「あゆ」を指すが、字の本来の意味(漢語としての意味)は「なまず」であり、日本語の文脈では「なまず」を示す記号を使って「あゆ」を表している。音楽に即してこういう乖離が考えられるかというと、こんな場面ならあり得る。仏教音楽は南インド起源であり、雅楽は当時の東アジアにあったいくつかの音楽が起源になっている。雅楽はこれらの複数の音楽を基に出来ているが、雅楽以外の音楽が雅楽の音楽理論書かれた楽譜とおりに演奏されているか、乖離を了解の上で音楽音の説明資料としているか(記号の指す通りに歌われているか、「あゆ」と「なまず」程度の違いを了解して使っているか)は、両者を比較して確認する必要がある。つまり、既存の音楽理論が使える事を確認することなしに既存の音楽理論を前提とする情報処理を行わない。

次に音の録音状態に関連して。

最近の音楽なら統計処理が可能な位の数のサンプルを集める事もできると思われるが、伝統邦楽の場合、利用できる音源が限られる。そのため、多数のサンプルから統計的にある性質を検定する方法が使いにくい場合を考慮して、仮説の信頼性を人が指定する方法も用意するとよい。また、元資料に対象となる音以外の音が含まれるのはやむを得ないものとして、可能な限り元資料から必要な性質が得られる方法を用意するとよい。

 

趣味の範囲に抑えるならここまで考えることもないが、最近、古書籍などの資料をディジタル化して公開する動きがあり、公開データの中に計算機を使う分析のための資料として使えるものが含まれているなら、必要な許諾を受けてこれを使えるようになるのではないか、という期待をもっている。

*1:注:CDについては、個人で聞く事以外の目的で使う事ができないので、技術的には読めても分析などを目的とした計算機可読データとしては使えない。出版物も無許可の複製はできないが、引用として許可された範囲なら引用元を明示すれば可能。

*2:電子カメラを使えば撮影結果としてイメージデータが得られる。

*3:これは筆と墨を使って写本をしていた時代も同様で、奈良の大仏開眼に際して膨大な数の経文を写経した事業では、写経者毎に書かれた文書の間違いをチェックする担当が付いた。

*4:文書構造記述言語を用意するということ。

*5:アプリケーションプログラムを援用することなく構造が書けるということ。