きのこ×フロンティア

第4回:きのこ×ディスタンス

2019.02.26 Tue

菌類・植物

前回の記事では、同定の「エビデンスレベル」をより高くするためには、本来は目前の標本から得られる情報を原記載と綿密に照らし合わせ、客観的な根拠に基づき同種と証明することが必要ではないかと述べました。しかし、その過程には様々な困難が立ちはだかっています。

その一つとして挙げられるのは、原記載の情報量不足の問題です。世界中から毎日のように新種の菌が報告されていますが、そもそも新種というのはそれまで人類にとって未知だった種ですから、記載された新種に「親近感」を覚えることはごく稀です。例外的に、普段から食用にされていたきのこが、DNA解析などにより実は従来考えられていた種とは別種だと判明する例や(キクラゲやアジア産「ポルチーニ」など)、フィールドでよく見かけるけど何だか分からなかった「アレ」が実は新種だったと聞いて驚かされる例もありますが、実際には新種の多くは、中国南西部、インド、ブラジルの熱帯林など、これまであまり調査が進んでいなかった「菌類学的に未踏の」地域から報告されるものです。馴染み深いきのこの多くは、当然ながら菌類分類学の黎明期に既に新種記載されており、特に学問の歴史が長いヨーロッパから大型のきのこが新たに発見されることは稀です。

つまり、一般的な傾向として、ありふれたきのこほど記載が古いと言えます。「ベニテングタケ」や「エノキタケ」は18世紀には既に記載されており、東アジアのきのこは少し遅れますが、例えば「シイタケ」は1877年、「マツタケ」は1925年にそれぞれ新種記載されています。それらの原記載に当たることは、インターネットのおかげでさほど難しくなくなりましたが、実際にそれらを見てみると、現代的観点では極めて簡素であることに気が付きます。中には2、3行で終わっているものもあり、特に顕微鏡的形質に関しては、現在では重要性が知られている形質の記述が全く抜け落ちており、胞子のサイズ程度しか記録されていないことが多くあります。もちろん、それらの「古い種」は200年以上にわたって様々な研究者により再検討がなされ、新たな形質の記述も加えつつ知見がアップデートされ続けてきたわけですが、種ごとの分類史はクロニクル(編年記)のように整理・可視化されていないため、その分類群の専門家ならともかく、筆者のような非専門家にとって、その変遷を辿るのは容易ではありません。

そこで現実的には、同定は「権威があり、信頼性が高い」とされる図鑑を基に行われることになるのですが、前述の「エビデンスレベル」の概念に鑑みると、本当にその図鑑の記述がホロタイプ標本に結び付いているのかという検証が(図鑑単位ではなく種単位で)必要になります。しかし、日本の図鑑において、図鑑の著者自身が記載した新種のような例外を除けば、掲載種の記述がその要件を満たすことはごく稀ではないかと思います。仮に記載文が翻訳された原記載を基にしていたとしても、そのmodifyに用いられた情報が日本産標本の観察を基にしているとすると、記載文全体としてのエビデンスレベルは混ぜこぜになって曖昧になってしまいます。そう考えると、種単位でもまだ粗く、形質単位で出典を明確化しなければならないのかもしれません。そのためには「形質のデータベース」の構築が不可欠だと筆者は考えていますが、それに関する議論は本コラムのスコープを超えるので、また別の機会にお話しできればと思います。

ここからは、同定対象のグループの全種について、十分な形質情報を含む原記載が入手可能という、(余りにも)理想的な条件を前提として議論を進めていきます。そして、目前の標本の形質を余すところなく記載文の形で表現でき、比較対象の原記載の各形質と一対一で突き合わせることができるものとします。ところで、このような前提を基に「同定とは何か」について今一度立ち返ってみると、本来「生物同士の比較」だったものが、記載文という「文書の比較」という問題に置き換わっていることに気が付きます。手持ちの文書と最も類似度が高い文書を特定することができれば、その淵源たる種を正しい同定結果とみなすことができるのではないか、というアイデアが浮かびます。同定とはすなわち、情報検索における「最近傍探索問題」なのでしょうか?ここでようやく、本コラム第一回で仄めかした通り、きのこの同定と「情報(学)」の関係に触れることができそうです。

最近傍探索問題の最も単純にして確実な解法は、ある点(クエリ点)から全ての点への距離を算出し、最短距離の点を求めるというものです(線形探索)。これは図鑑のページを冒頭から1ページずつ、最後までめくりながら比較していく作業に似ており、明らかに非効率であることが分かると思います。最近傍探索に効率化のための様々なアルゴリズムがあるように、同定においても候補種の探索に適した方法があることが予想されます。生物の分類が階層構造をなすことも利用できるかもしれません。

しかし、それ以前の問題として、そもそも「種と種の距離」をどのように算出すればよいのでしょうか?記載文にある各形質を、例えば「なし」なら「0」で「あり」なら「1」、あるいは「赤」なら「a」で「青」なら「b」…のように符号化し、マトリックス(形質状態行列)を作成すれば、種間の類似度を算出でき、それを基にクラスタリングを行うこともできます。これはまさに、分類学に客観的な定量的手法を導入しようとした表形分類学(数量分類学)の考え方で、可能な限り多数の形質を同質・等価値のものとみなして統計的に扱うことで、特定の形質に対する恣意的な重みづけを排除した分類を目指したものですが、分類学の歴史においては、形質が必ずしも系統進化を反映していないこと、「多数の形質」とはいえその選択に主観の影響が避けられないことなどが批判され、主流となることはできませんでした。

ただ、同定に限って考えれば、「可能な限り多数の形質」かつ「形質ごとの重みづけをせず」に「符号化する」という方法論に適宜修正を加えれば「実用的」な仕組みが作れるのではないか、というのが筆者の考えです。識別形質に価値(情報量)の差があるというのは直感的にも理解できることですから、適切な重みづけをした上で必要な形質のみに絞り込むことで、同定に有用な距離空間を定義できるのではないでしょうか?一つの試みとして、種々のきのこの子実層托拡大画像からニューラルネットワーク(転移学習済のVGG16)を特徴抽出器として得た特徴量の集合を、t-SNEという手法で二次元に削減して可視化した画像を提示します。次元削減の過程で多くの情報が損失していますが、概ねよく似た画像同士が近くに位置し、緩やかなグループをなしていることが見て取れます。このグルーピングは系統進化を全く反映せず、収斂進化の結果にも囚われていますが、それでも同定における候補種の絞り込みにはある程度役に立つのではないかと思います。

ところで、上図において一枚一枚の写真の位置は、その種の複数枚(種によっては100枚以上)の写真から得られた特徴ベクトルの平均値を基にしています。つまり、一つの種を一つの「点」に対応させているのですが、ここでは同定において必ず考慮しなければならない、生物のある重要な性質を無視してしまっています。次回はその性質に焦点を当ててみたいと思います。

中島 淳志 (なかじま・あつし)

1988年生。2014年4月IMIC入職。安全性情報部所属。
学生時代には菌類分類学を専攻。現在は業務の傍ら、アマチュア菌類愛好家(マイコフィ
ル)として、地域のきのこの会等で菌類の面白さを伝える"胞子"活動を行う。
夢は地球上の全菌類の情報を網羅した電子図鑑を作ること。