狸系の里 シーズン2

はじめの一歩、二歩、散歩・・

追い込み中(その1)

20日〆なら3月度はあと三日しかない。という訳で、原稿の追い込み中。原稿は7章あるが、順に書くとまた途中で道に迷うので、サンドイッチ風に1章と7章とをまず書いている。

もともとこの原稿、情報科学の基礎研究という位置づけで、新しい研究課題を発見することを目標にしている。ある問題を解決するための技術が安定し、結果が見えて来た時に、原因と結果の対応関係を逆転させてみる。例えばSGML/XMLでは文書型を具体化したものをテキストと呼ぶが、設定を逆にすると、テキストの読みを確定して文書型を具体化するという設問が得られる。何か人工的な気がするが、文献資料を考えると、原則句読点がない、虫食いや破損などで読めない字がある、というのはありがちなことで、一つの文書資料に複数の読みがあるのが常態とさえいえるらしい。こういう文書では、当然のように、一つの資料に複数の構造が導入される。

こういった文書に、テキストの様々な読みを導出できるSGML/XML文書型を定めるというのは一つの考え方ではあっても、実際には、異なる構造のそれぞれに対応するタグがネスト構造を満たすとは限らないといった難しい問題があるらしい*1。そこでSGML/XMLを仕様とおりに適用することは一端取り下げてみる。テキストにタグ付けするところだけ取り出すと*2、テキストの構造を書いた木構造の集合Dができることになる。この木構造の集合を操作して、この集合Dの持つ性質*3を調べると、SGML/XMLを仕様とおりに適用するための回避策とは違う結果が得られるだろう。こんなことを書いている。

もちろん課題の発見を目的とする以上は、競争用トラックを整理したことが成果であり、競争した結果ではない。そういう結果はすべてこれから、ということになる。どこかでもう結果が出ていれば、課題を見つけたこと自体が無目的ではなかったと言えるので、それはそれでよいのだが。

*1:TEIの活動報告によれば。

*2:骨抜きXMLなどとも呼ばれることがある。

*3:例:語彙Πを組み合わせてできる木の全体をTと書き、このTの部分集合Sのうち、D⊆S⊆Tを満たすものが得られれば、Sを規定する規則がDの文書型定義を与える。