狸系の里 シーズン2

はじめの一歩、二歩、散歩・・

資料整理

早朝と言うには22時は変な時間だけれど、朝4時に起きた時には書く時間がなかったので仕方なく。

 

さて、前回の見取り図に合わせて手持ちの資料の整理を始める。手持ちの資料は大きく分けてこんなものがある。

書籍

・ 音のアレイ信号処理 ‐音源の定位・追跡と分離‐

・ 音声言語処理 ‐コーパスに基づくアプローチ‐

・ 確率モデルによる音声認識

・ 他

論文

・ 木言語、木変換系理論関係

 

ここで木言語というのは、木の枝一つを一本が複数の枝に分岐する記号と見なして、木構造を記号の並びの構造として捉まえようという意図のもとで展開されてきた、数理言語を言う。

最近ではXMLスキーマとの関連で一時注目を集めたが、以前はパターン認識の分野でモノの形を記号的に表わす手段として使われていた。数学理論として纏まった形を見てみると、数理言語(記号列の並びが作る言語)に見られる正規言語‐文脈自由言語‐文脈依存言語‐帰納的可算言語の階層と似た構造が見られる。このうちXMLスキーマとの対応では正規木言語がよく知られている。

数理言語そのものがある形を描くために考案されたと言ってもよい。当初、言葉を記号の並びとして見たときの、係り受けの形を記述する目的で考案されている。言葉以外にも、L-systemと呼ばれる数理言語は、記憶に拠れば、植物の形を記述するためのものだった。

数理言語は生成規則で特徴づける以外、受理機械で特徴づける考え方もある。受理機械も、記号を読んで決まった遷移を一つだけ起こす素直なもの以外、複数の状態遷移を同時に起こすもの、状態遷移するときにある計算を行うもの*1、状態数が自然数と同じだけあるもの*2自然数どころかもっと多数あるもの、・・・数えだすときりがないほど見つかる。

ただ、数式ベースでいろいろ考えても際限がないので、実世界にある対象を選んで「形を書く」タスクを一つの言語に対応が付けられれば面白いかもしれない。

 

資料を集めるにしたって労力と経費がかかっているから、有効な使い方が見つかればそれはそれでいいのだが・・・

 

数理言語中心に整理すると信号処理の話が付け足しになってしまう。もしかしたら、歴史・文学文献処理に関する興味も、実は文書の形だけしか見ていないのかもしれない。このあたりは要するに自分で決断すればいいだけの話なんだけれど、つい先延ばしにしてしまった。そろそろ決めないと、面白そうな話が出て来た時に直接は関係しなくともつい気にする。筝言う話をうまく展開できないと、話をもってきていただいた方にも迷惑をかけてしまうことになる。

 

そんなわけで、ここから先、個人営業からどの方向で抜け出すかについては、いろいろ気になっている。もしかしたら、音楽学と言いつつ音処理は全然パスしてしまうかもしれない。

*1:逐次決定過程

*2:無限状態機械。記号列の集合を右不変な同値関係で類別すると同値類の集合が得られる。この同値類一つ一つが有限オートマトンの状態に対応する。正規言語より上位の言語にも同値類の集合が定義できて、状態数が無限個の有限オートマトンという矛盾した名前をもつシステムができる。