きのこ×フロンティア

第5回:きのこ×ヴァリアンス

2019.03.26 Tue

菌類・植物

前回のコラムでは、きのこの襞や管孔の拡大写真をベクトルで表し、1つの種を特徴空間上の1点に対応させることを試みました。画像だけでなく、記載文のような文書情報も特徴ベクトルとして表現することが可能なので、手元の標本から記載文を作成し、最も距離が近い記載文を特定すれば、うまくいけばそれが正しい同定結果であることが期待できます。文書をベクトル化する具体的な方法については詳しく述べませんが、単純なBoW (Bag of Words) やTF-IDFから、Doc2Vec、SCDVといった分散表現を用いた手法まで、様々な手段が考えられます。

しかし、ここで一旦考えたいのが、そもそも1つの種を1つの点として表現することが妥当なのか、という問題です。1つの点で表すということは、個々の種について単一のデータしか用いないか、あるいは平均値のような代表値を採用するということです。しかし、生物の種は、同一種であっても個体ごとに形質が全く同一ということはなく、形質ごとに取りうる一定の幅が存在します。この「種内変異 (intraspecific variation)」の程度は種ごとに様々で、形質によっては複数種がオーバーラップする場合もあるので、極めて難しい問題だと思います。いずれにしても、変異の幅を表現するには、個々の種を「点」ではなく「領域」で表現することが必要です。しかし、タイプ標本がその領域の中心付近に位置するという保証はなく、ある種の占める領域がどこまで広がっているかも不明確です。ボロノイ図のように既知の点から領域が自動的に決まるなら話は比較的簡単で、同定の目的では便宜上そう考えてもよいのかもしれませんが、実際にはどの種の領域にも属さない空間の割合が大きいということは想像に難くありません。

また、個々の種の領域を既知の情報から明確化できるのか、という問題もあります。種同定における唯一無二のエビデンスは、タイプ標本およびそれを基にした原記載だということを既に述べました。しかし、仮にその情報を基に、ある特徴空間上でタイプ標本/原記載に相当する一定の領域を画定することができたとしても、それは一般的に受け入れられている種概念とは必ずしも一致しないのではないかと思います。例えば、あるきのこの原記載において、「傘の直径が5-10 cm」との記述があったとして、その後「傘直径10.5 cm」の子実体が採集されたら、それは種概念からの逸脱であり、その種に同定することは「正しくない」と考えるべきなのでしょうか?

記載文の記述を法律のように厳密に解釈することは現実的ではなく、実際にそのような運用はなされていないと思います。例えば突然ある既知のきのこの巨大な子実体が発生しても、きのこの子実体サイズの可塑性を知っている人なら、それが別種かもしれないという考えが最初に浮かぶことはまずないでしょう。きのこの同定が困難とされる理由には複数ありますが、その中でも特に影響力の強い要因が「変異の大きさ」です。きのこの肉眼的形態は良く言えば「柔軟」、悪く言えば「いい加減」なので、生長段階や環境要因によって劇的に変化することが普通です。しかし、その性質が故に、厳密には「未知」として扱われるべき対象が「既知」として扱われることが常態化してしまい、ある時は誤同定に繋がり、仮に同種と見なす判断が生物学的に妥当であったとしても、種概念が原記載時点のそれを超えて特徴空間上の「無主地」を先占するが如く拡張することになり、その根拠が明示されなければ、「偉い先生がそう言ったからこういうのも同種なんだ」ということにもなり兼ねないわけです。

筆者は、そもそも記載文における量的形質の表現法に限界があるのではないかと考えています。仮に100個の測定値を得たとしても、それを範囲に変換すると多くの情報が失われます。ヒストグラムとして表現すれば一目瞭然の「最頻値」や「分布の形状」といった情報が失われてしまうのは、非常にもったいないことだと思います。また、十分なデータがあるにもかかわらず分布が多峰性を示したとしたら、複数の部分母集団が含まれている可能性が考えられますが、もしかしたらそれは複数の種が混在していることを示すシグナルかもしれません。
とは言っても、1形質あたり100個の計測値を記載文に入れ込むことは著しく視認性を損ない、紙面も大きく割いてしまうので、記載文を印刷することを考えると、量的形質を範囲や代表値で表現せざるを得なかったわけです。しかし、今は電子出版の時代ですから、生データをSupplementary material(補足資料)の形で付加することも可能ですし、例えば記載文の数値をクリックすると生データに基づくヒストグラムやカーネル密度関数のグラフが表示されるような、インタラクティブな仕組みも容易に実現できると思います。下図は本ページ上部に掲載した、スティクティスという椀形のきのこの直径を確率分布の形で可視化したものです。

また、筆者は、二値でしか表せない形質を除いては、基本的に全ての形質を定量的に、それも確率分布として表すべきではないかと考えています。例えば、色も可能な限りRGB値やCMYK値のような定量的指標で表現するべきだと思います。仮に正規分布を想定すると、外れ値が得られたとしても、ごく低確率で生じうることとして容認され、即座に種概念の逸脱に繋がる事態を避けられます。種概念を修正するに足るような信頼性の高いデータが新たに集まれば、ベイズ更新の要領で分布の形状を変化させればよいわけです。特徴空間上の領域も単なる範囲ではなく、確率密度を考慮することができ、同定にあたってもKLダイバージェンス等を用いて分布間の距離を算出することで、より正確な結果に繋がるのではないかと思います。

最後に、本コラムのために簡単な解析を考えてみました。筆者が現在構築しているtagtog Fungiコーパス(近日一般公開予定)を用いて、CC-BYライセンス(主に「MycoKeys」誌)の記載文455件から「胞子(担子胞子、子嚢胞子、分生子等)の計測数 (n)」のデータを抽出したところ、67件ヒットし、平均値が約76、標準偏差が約83でした。この結果から、かなりのバラツキがありますが、論文に掲載するにあたっては大体50個~100個ほどの胞子が計測されている例が多いことが分かりました。実は筆者にとってこの結果は意外なもので、これまで見てきた日本語のきのこの記載文では、胞子の計測数は20個くらいが平均的という印象がありました。「MycoKeys」は2011年創刊と新しく、現在とても勢いのある国際学術誌なので、今回の結果は現在の世界標準に近い、よい目安になったのではないかと思います。それを踏まえて、ある胞子の長さが平均10、分散2の正規分布に従うと仮定した時、20個と100個をそれぞれ10回ずつ計測した値を基にカーネル密度推定を行った結果が下図です。20個程度では本来の分布を十分に再現できておらず、さらなる計測を要することが見て取れます。

中島 淳志 (なかじま・あつし)

1988年生。2014年4月IMIC入職。安全性情報部所属。
学生時代には菌類分類学を専攻。現在は業務の傍ら、アマチュア菌類愛好家(マイコフィ
ル)として、地域のきのこの会等で菌類の面白さを伝える"胞子"活動を行う。
夢は地球上の全菌類の情報を網羅した電子図鑑を作ること。