近世後期小説と役者似顔絵 −書誌情報活用の実際−
高 木  元

 近年のパソコンやワープロの普及にしたがって、多くの研究情報が機械可読テキスト▼1の形で公開されるようになってきた。機械可読テキストは電子媒体▼2として流通されるので、書籍などの活字媒体と比べて物理的に小さいことや、デジタル化したデータの特性として、質の劣化を伴わずに短時間に複製が可能なことなども顕著な特徴の一つではある。だが、本質的な機能の差異はパソコン上で自在に加工や検索ができるいう点である。極端にいえば「索引」自体がテキストに内在化されていると見ることも可能なのである。ただ、必要な情報を旨く検索するには色々と厄介な問題も存する▼3。しかし、学問の成果の一側面が蓄積されて行く情報にあるとすれば、メディアの変化という問題は従来の学問研究のあり方に本質的な変革を促すことになるかもしれない。

 さて、近世後期小説の研究には、演劇研究や浮世絵研究の側で蓄積された厖大な情報の利用が不可避である。とりわけ口絵挿絵に登場する役者似顔の考証には、演劇と絵画との総合的な知識が必要とされる。今回の共同研究の目的も基礎的情報の収集とその研究に存したわけであるが、本稿では機械可読化されたデータの実際的な利用法(加工処理)について報告したい。

 まず最初に本報告書に寄せられたロバート・キャンベル氏の「九州大学文学部蔵・旧松浦家蔵草双紙目録稿(未定稿)」を扱ってみたい。氏より頂戴した機械可読テキスト▼4を、高価な上に様々な制約があり甚だ使い難い市販のデータベース処理用のアプリケーションソフトウエアを使わずに、データベース化して見よう。氏のデータは印刷を前提として整形が施されているが、一応構造化されている(行頭の">"は引用を表す)。

>⇒#1
>◇書名    女鳴神名歌短冊
>◇編著者    山東京伝作・鳥居清峯画
>◇冊数          2冊
>⇒#2
>◇書名    室〓花魁
>◇編著者    東里山人作・勝川春扇画
>◇冊数          2冊
>⇒#3
>◇書名    富士太郎梅の隠家
>◇編著者    東西菴南北作・歌川国丸画
>◇冊数          2冊

 データベースにはレコードとフィールドという概念があり、上の例でいえば、一つのタイトル(#1)が一レコードであり、その項目(◇)が三つのフィールドを形成している。しかし、この儘では情報の追加や訂正、また検索には不便である。そこで、この機械可読テキストを次のような書式に変換しよう。

1|女鳴神名歌短冊|山東京伝|鳥居清峯|2
2|室〓花魁|東里山人|勝川春扇|2
3|富士太郎梅の隠家|東西菴南北|歌川国丸|2

これらは「番号|書名|編著者|画工|冊数 」という構造を持ち、各フィールド間は"|"で区切られている。このフィールドの区切りをデリミタ(delimiter)と呼ぶ▼5。また、単語と文節の区切りや自立語と付属語の別などという、次元を異にするデータ構造を明確にする必要がある場合は、二種類以上のデリミタを使用するのも有効である▼6

 この書式への変換は、エディター▼7に読み込んで手作業でも片付くだろうが、AWK や sed などのツール▼8を用いれば容易に実現可能である。利用者定義文字(所謂「外字」)を「〓」にするなどの前処理が若干必要であるが、AWK を使えば、次に示した如く、僅か十行足らずのプログラムで済む。

-----------------------------------------------------------------------
# rf.awk kusa.txt -> kusa.dat
BEGIN { CR = "\n"; }
/^◇/ || /^⇒/ {
sub(/^⇒#/,"");
sub(/^◇..*[  ]/,"|");
sub("・","|");
gsub("[作画]","");
sub("[冊]$",CR);
printf("%s",$0);
}
-----------------------------------------------------------------------

% jgawk -f rf.awk kusa.txt > kusa.dat

>15|浮世街道教速解|東里山人|歌川美丸|1
>16|忠臣蔵曽我物語|楽斎山寿|歌川国丸|1
>17|比翼紋吾妻模様|梅仙女史|歌川美丸|1

得られた上のデータを使うと、京伝作の中で豊国が絵を描いている作品の番号と書名リストなどは容易に得られる。

% jgawk -F"|" '/京伝/&&/豊国/ {print $1,$2}' kusa.dat

>11 石枕春宵抄
>146 梅の由兵衛紫頭巾
>147 梅由兵衛紫頭巾

一方、正規表現の使える cgrep という文字列検索ツール▼9を用いると、AND検索に拠って

% cgrep -a -e 京伝 -e 豊国 kusa.dat

>11|石枕春宵抄|山東京伝|歌川豊国|2
>146|梅の由兵衛紫頭巾|山東京伝|歌川豊国|半紙本2(前編上後編上)
>147|梅由兵衛紫頭巾|京伝|豊国|中本2(前編上後編上)

という結果が得られる。出力の書式は指定できないものの AWK より高速である。

 また、sortf という高速外部フィールドソートが可能なツール▼10を用いて、作者のフィールドと画工のフィールドに注目して並べかえると

% sortf -t"|" +2 +3 kusa.dat

>3|富士太郎梅の隠家|東西菴南北|歌川国丸|2
>10|浜細砂相続赤本|東西菴南北|勝川春扇|2
>12|土蜘太郎一代記|東西菴南北|勝川春扇|2
>21|伊勢道中恋紀行|東西菴南北|勝川春扇|2
>8|紅染女達磨|東西菴南北|柳川重信|2

という具合に作者別画工順のリストができるわけである。ただし、シソーラス(同義語辞書)を持ってないので、検索には著者の別名や堂号などの予備知識が必要である。また、作品名の訓みのフィールドを追加すれば辞書訓み順でのソートも可能である。

 次に、このデータを編集用に項目名を付けた書式に変換してみる。これも簡単なプログラムである。

------------------------------------------------------------------------
# rf2.awk kusa.dat -> kusa.edt
BEGIN { FS="|"; OFS="\n"; ORS="\n\n"; }
{
print $1,"書名:"$2,"作者:"$3,"画工:"$4,"冊数:"$5
}
------------------------------------------------------------------------

% jgawk -f rf2.awk kusa.dat > kusa.edt

>22
>書名:寄愛度金売吉事
>作者:陽斎南山
>画工:岳亭春信
>冊数:2
>
>23
>書名:大江山いり
>作者:山東京伝
>画工:鳥居清峯
>冊数:2
>
>24
>書名:絵操二面鏡
>作者:柳亭種彦
>画工:歌川国貞
>冊数:2
>

もとの印刷用の書式に似ているが、フィールドの区切りが改行で、レコードの区切りが改行のみの行という如く単純明解に構造化されているので、データベース化が容易である。また、訓みのフィールドを追加するのも、この編集用のファイルをエディターを用いて加工したほうが楽である。ついでに、これをデータベースに戻すプログラムを示しておこう。

------------------------------------------------------------------------
# rf3.awk kusa.edt -> kusa.dat
BEGIN { FS="\n"; OFS="|"; RS=""; }
{
for( i = 1; i <= NF; i++ )
sub(/^.*:/,"",$i)
printf( "%03d|", NR );
print $2,$3,$4,$5
}
------------------------------------------------------------------------

% jgawk -f rf3.awk kusa.edt > kusa.dat

>174|敵討天竺徳兵衛|山東京傳|歌川豊国|1(2冊合綴)
>175|昔語兵庫之築島|式亭三馬|北川美丸|6
>176|[敵討白藤源太談](柱題しらふち)|山東京傳|豊国|1(7巻合綴)

という具合で、機械可読テキストを加工してデータベース化すれば、AWK や cgrep を使った複合条件検索ができ、また sortf での並べ替えもできた。また、データの構造を編集用に変換して、エディタでの加工がしやすくもできるのである。フィールド長の制限もないし、もはやブラックボックス化した重いアプリケーションソフトを使う必要はないのである。

 一方、本報告書に寄せられた吉田倫子氏の論考は富士通製のワープロ専用機である OASYS30AX(cd) で作製され 2DD のフロッピーディスクで渡されたものであった。このディスクはフォーマットが違うので、そのままではパソコンに読込むことができない。そこで使用したのが、oasms.comというオアシスの文書ディスクを MS-DOSのテキストファイルに変換するデータコンバータ▼11である。これで罫線を含めて完璧にパソコン上で加工可能になる。若干手順は違うが、「古今俳優似顔大全」の一覧表の部分をデータベース化してみた。簡単に手順を記すと、先ず罫線で囲まれた表の部分をエディタで切出す。sed を用いて横罫線の行と空白とを削除し、縦罫線をデリミタに置換えつつ、二行を一行にまとめる。その結果は次のようになる。

>002|三代目伝九郎|四代目伝九郎|五代目伝九郎|〃|猿若中村家系譜||奴丹前|阿部の保名|狂言猿若|||
>003|初代中村仲蔵|二代目仲蔵|中村鶴蔵|〃|中村家門弟付録||関守関兵衛|斧定九郎|蝙蝠安|||

これで既にデータは構造化されているのだが、もう少し見やすくすると

% jgawk -F"|" '{print $1"|"$2"("$8")\n"$1"|"$3"("$9")\n"$1"|"$4"("$10")"}' rinko.txt

>002|三代目伝九郎(奴丹前)
>002|四代目伝九郎(阿部の保名)
>002|五代目伝九郎(狂言猿若)
>003|初代中村仲蔵(関守関兵衛)
>003|二代目仲蔵(斧定九郎)

これで cgrep を使えば似顔の出ている位置が迅速に検索できるし、同時に役名からの検索も可能だ。訓みのフィールドを付加え辞書順でソートし印刷すれば「索引」もできる。これは、ワープロ専用機で書かれた論文に含まれる情報のデータベース化の実例であったが、逆にパソコンに貯えた書誌データを論文中に一覧表として示すことも、さほど難しい処理ではない。

 さて、既に公開されている機械可読テキストとして、土田衛氏等がワープロ専用機で作製した歌舞伎台本に出てくる役名のデータベースがある。単純に MS-DOS にコンバートしただけのテキストファイルで約2Mbyteに及ぶ大きなものである。印刷を意図して作製されたものなので、例えば「愛甲三郎」に関するデータは「あいこう」の項と「さぶろう」の項の両方にある。以下に例示したのは、sed などを用いて見出語を補完しデータ重複を削除したものである。

>あいこうさぶろう|愛甲三郎|寛政0101|江市村|恋便仮名書曽我・一番大詰|戯曲全集14
>あいこうさぶろう|愛甲三郎|文化0201|江中村|全盛虎女石|戯曲全集45
>あいこうさぶろう|愛甲三郎|文化0301|江中村|念力箭立椙・三建|戯曲全集14
>あいこうさぶろう|愛甲三郎|文化1201|江中村|比翼蝶春曽我菊・一番大詰|戯曲全集14
>あいこうさぶろう|愛甲三郎|文政0501|江市村|御摂曽我閏正月|戯曲全集14

 このデータの利用価値は大変に高く、近世小説に登場した人物名の出拠調べのみならず、外題から活字翻刻の所収本が検索できるし、初演年月や劇場のデータも含まれているために、相関的な検索も可能なのである。さらに、これも公開されている舩戸美智子氏等作製の『世界綱目』▼12のデータベースとリンクさせた利用も考えられる。このように、二つの異なるデータベースに共通するフィールドに注目すると join というツール▼13を用いてリレーショナルな処理、すなわち、あたかも一つのデータベースかの如き利用も可能なのである。

 近世文学研究にとって、蓄積された機械可読テキストは計り知れない便宜を与えてくれるものである。と同時に、我々自身がワープロやパソコン上で作製した論文や翻刻などのファイルは、決して単に印刷するための原稿という意味に留まらず、適切な加工を施して公開すれば、汎用の機械可読テキストとして大勢の利用に供せるのである▼14。つまり、互いの研究の成果を文字通り取り込むことができるようになったわけで、このことは個人の業績を殊更に偏重する学問の閉鎖性を打壊していく一つの推進力になって行く可能性がある。

 しかし、公開が進む一方で、機械可読テキスト作製のプライオリティ保証や著作権尊重というルール作りも急務である。利用者がその利用を明記して謝辞を加えることは最低のマナーだと思われる。現在の状況から判断して無難なのは、活字化して発表しプライオリティを確保してから公開することである。だが、たとえ作成したデータを使った仕事が終った後での公開であっても、他の人がそれを使って別の発見や仕事をすることに抵抗があるならば、安易な公開は避けるべきである。つまり、機械可読テキストの公開には、学問の発展に役に立ったことを素直に喜べる度量の広さが要求されているのである。逆に考えれば、これは相互の問題であるから、自分が他人のデータを使って仕事をできる可能性も残されているわけである。

 実際問題、現実的にはさらに進歩しており、活字で公表する予定はなくとも、自分が使っていて便利なデータ、たとえば西暦と和年号と干支のデータなども既に公開されている。これら研究者間の相互利益(give and take)追求の精神は、既に一定の基盤ができているともいえよう。パソコンの世界では、自分が作った有用なツールをフリーソフトウエアとして公開し、大勢に使ってもらうことを喜びとする方々がいて、利用者もテストに協力したり新たな仕様を提案したりという形で、より優れたツールが産み出されている。実際、私がパソコンを使って仕事ができるのも、彼等の度量の広さに負っているのである。

 あらゆる情報とは何時か質に転化できる可能性を内包したものである。しかし、そこにはどうしても生身の人間の着想が不可欠なのであるから、基本的に機械可読テキストの公開は歓迎すべきことだと思われる。

 なお、今回の共同研究に於ける成果の一つである拙編の山東京山著編述書誌データ▼15も公開する予定であり、これがロバート・キャンベル氏の資料整備をはじめとして、何かの役に立てば幸いである。



▼1 MRT(Machine Readable Text)の直訳。「テキストデータベース」とか「電子化テキスト」等と呼ばれることもあるが、構造化されていないテキスト本文までを「データベース」と呼ぶのは相応しくないので、本稿では「機械可読テキスト」という呼称を用いる。

▼2 小容量のものであればフロッピーディスク、大容量の場合は CD-ROM などが使われる。

▼3 この問題については、近藤泰弘「古典文法研究の立場から考えた<検索>と<テキスト>」(『日本語学』1991年11月号、明治書院)に詳しい。

▼4 某「四太郎」という著名な(悪評高い)ワープロソフトの吐出した制御コードの入っていないプレーンなテキストファイルを使わせて頂いた。

▼5 データの中に出現しない記号(文字) なら何でも良いが、一般的には","(コンマ)を用いることが多い。ただし、2byte文字(所謂全角文字)を用いるのはデータ容量上無駄であるし、見難くなってしまう。

▼6 「AWK で隆達歌謡の索引を作る」説明(mtoyo,1991年9月)に詳しい。なお、本文献は豊島正之氏が学生の卒論指導のために作られたプリントに手を加えたもので、商業BBS(所謂パソコン通信のホスト) である PC-VAN の ORIENT-SIG に於いて機械可読テキスト(awkkwic.txt)として公開されている。

▼7 機能的には印刷機能の付いていないワープロと考えても良い。本来はプログラム作制用に開発されているので、あらゆる処理が高速に可能で、一度に多数の大きなファイルが編集できる。

▼8 パソコン(MS-DOS)上で動作する(UNIX風)プログラムの総称。 AWK は作者である A.V.エイホ / B.W.カーニハン / P.J.ワインバーカー の頭文字をとったデータベース(テキストファイル)処理用のプログラム言語、sed は非対話型エディター。AWK には足立高徳訳「プログラム言語AWK」(トッパン、1989)という教科書が備わっている。共にGNUプロダクツ(ソフトウエアの完全に自由な流通を目指す運動)の一環として serow氏の手に拠って日本語化(jsed,jgawk)され、自由な流通が保証されている。

▼9 cgrep は AssistantIO氏製のフリーソフトウエア。GNUプロダクツの e?grep の仕様に準拠しつつ、日本語が使えるようにし機能的に拡張したもの。「正規表現」とは検索する文字列を抽象化して表記できるもので、カタカナや数字という文字クラスや、特定の文字列の結合などをも表現できるので、およそ考え得るすべての条件での検索可能にする。また、拡張機能であるファジー検索は「京伝」で検索すると「京傳」も捜してくれる(正規表現で記述すると「京[伝傳]」)し、改行コードを跨いだ文字列を捜す機能も備えている。なお、最新ヴァージョンではフィールドを指定した検索が可能になっている。

▼10 mtoyo氏製のフリーソフトウエア。パソコンのみならず、UNIXのワークステーションや Macintosh や大型機でも使える。大きなファイルでも高速にソートできるし、フィールドを指定しての並べ替えや、辞書順(あいうえお順)のソートすらも可能である。

▼11 T.Sasa氏作製のフリーソフトウエア。使用したのは Ver.1.17。この他、市販されているアプリケーションソフトウエアもあるようだ。

▼12 写本で伝わる歌舞伎狂言の基本的類型である「世界」に関する参考書で、役名や引書、義太夫などを一覧にしたもの(「狂言作者資料集(一)」(歌舞伎の文献・六、国立劇場芸能調査室、1974年)所収)。この資料の役名と世界に注目して、舩戸美智子・内田保廣・近藤瑞男氏等が索引を作られた(「共立女子大学文芸学部紀要」33集、1987年2月)。公開されているのは、この索引を作成する際に入力した機械可読テキストである。

▼13 MASSAN氏の手になるUNIX流データベース操作用のフリーソフトウエア。MS-DOSのオマケに付いてくるjoin(本来はmountと呼ぶべき)とは別物。最新版は Ver.1.11 。

▼14 その際に、機種依存文字コード(丸で囲んだ1など NEC が勝手に定義したもの)や利用者定義文字(所謂「外字」)は使わないようにすべきである。また、異機種間の移植が困難で今後使われなくなることが必至である 1byte仮名(所謂「半角カナ」)も使うべきではない。さらに、見た目も間が抜けていて美しくなく、ディスク容量も無駄な 2byte英数記号(所謂「全角英数記号」)も避けたほうが賢明であろう。
 また、NECの98シリーズが採用している JIS78(C6226-1978)情報交換用漢字符号系と、他のメーカーが導入した JIS83(C6226-1983) では同一の字体が別のコードに割り当てられていたり、字体が変更されたりしているものがあり、注意を要する。これらの問題については、豊島正之「「JISに無い字」をめぐって」(『しにか』1992-2、大修館)に詳説されている。なお、『しにか』のこの号は「古典とコンピュータ」という特集号であり、内田保廣「古典とコンピュータの最近の関係について」は本稿と内容的に関連する部分がある。

▼15山東京山著述書目年表稿(一)−短編読切合巻−」(「愛知県立大学文学部論集(国文学科)」40号)。


【付記】本稿をなすに当って、ロバート・キャンベル氏、及び吉田倫子氏作成の機械可読テキストを利用させて頂いた。厚く御礼申し上ます。また、注にも挙げましたが jgawk, jsed, sortf, cgrep, join, oasms などの便利なツールを作成公開なさった作者の方々にも感謝致します。

【補注】本稿は1992年時点での状況に基づいて記述されたものです。技術情報に関しては現状とは大きく異なっている部分も多々ありますが、歴史的文書(?) として、そのまま掲載しておきます。


#「近世後期小説と役者似顔絵 −書誌情報活用の実際−」
# 平成二・三年度文部省科学研究費補助金(総合研究(A)02301060)報告書
# 『近世後期戯作−主に化政期合巻−に用いられた役者似顔絵の研究』(平成4(1992)年3月31日)所収
# Copyright (C) 1992-2012 Gen TAKAGI
# この文書を、フリーソフトウェア財団発行の GNUフリー文書利用許諾契約書ヴァー
# ジョン1.3(もしくはそれ以降)が定める条件の下で複製、頒布、あるいは改変する
# ことを許可する。変更不可部分、及び、表・裏表紙テキストは指定しない。この利
# 用許諾契約書の複製物は「GNU フリー文書利用許諾契約書」という章に含まれる。
#               千葉大学文学部 高木 元  tgen@fumikura.net
# Permission is granted to copy, distribute and/or modify this document under the terms of the GNU
# Free Documentation License, Version 1.3 or any later version by the Free Software Foundation;
# A copy of the license is included in the section entitled "GNU Free Documentation License".

Lists Page