きのこ×フロンティア

第7回:同定は「先ず解より始めよ」?

2019.05.28 Tue

菌類・植物

きのこの同定に関する本コラムでのこれまでの議論は、標本を起点として様々な形質情報を収集し、段階的に正しい同定結果に迫っていくというクラシカルなアプローチを前提としてきました。種を同定することを俗に「種に落とす」と言いますが、これまでの一般的な同定には、「ハラタケ目」→「テングタケ科」→「テングタケ属」→「ベニテングタケ(種)」といった具合に、概ね粗い形質から始めて順次細かい形質を検討していき、上位から下位に向けて分類階級を明らかにしていくという方向性がありました。しかし、近年は必ずしもその図式が当てはまらない手法が登場し、かつ主流に置き換わりつつあります。それは同定論の観点からは「パラダイムシフト」と呼ぶに相応しい、すなわち旧来の規範や価値観が根本的に変わってしまうほどの劇的な変化だと思います。

その手法は大きく分けて2つ、すなわち「DNAバーコーディング」に代表される分子生物学的手法と、AI関連技術の発展に伴い台頭しつつある「画像認識」です。これらの手法も、実は標本から抽出された形質情報を基に種を特定するという「方向性」は旧来の手法と変わりありません。前者はDNAの塩基配列、後者は画像から得られる特徴量ベクトルという、広い意味での形質情報に依拠しているためです。しかしながら、それらがあまりにも強力であり、straightforwardに同定結果を返してしまうがゆえに、疑似的な「逆転」とも言うべき現象が生じています。すなわち、同定が「検討を積み重ねて答えを導き出す」のではなく、「答えを先に得た後にその妥当性を検証する」という作業に成り代わってしまっているのです。特に分子生物学的手法では、羽の1枚や毛の1本のような不完全な標本であっても、DNAさえ抽出できれば問題ありません。「海水に含まれるDNAを解析することで生息している魚類の種類が分かる」という最近の日本発の研究成果をご存知の方もおられるかもしれませんが、このような極端な例では、同定対象を人間が認識する必要すらありません。

分子生物学的手法についてはこれまで意図的に言及を避けてきたのですが、ここで簡単に解説します。DNAの塩基配列を基に生物の同定を行うことを「分子同定 (molecular identification)」と言いますが、「DNAバーコーディング」はその中でも特に一般的な手法です。これは、特定の遺伝子領域(菌類は核リボソーム遺伝子のITS領域)の塩基配列を決定し、それと相同性の高い塩基配列を持つ生物種をレファレンス・データベースと照合するというもので、使用する遺伝子領域はゲノム全体のごく一部の短い領域ですが、種ごとに特異的な塩基配列を持つ部位が選ばれており、あたかも「バーコード」のような識別子として扱うことができます。前述した魚類の例でも、環境DNAメタバーコーディングという類似手法が用いられています。この他には、例えば特定の塩基配列を持つ種を簡便かつ迅速に検出できる「LAMP法」があり、結核菌やマイコプラズマのような病原体の検出に実用化されているほか、2018年に国立環境研究所が開発した「ヒアリDNA検出キット」もこの手法を利用しています。

ただし、DNAバーコーディングに関しては、現在の技術では結果を得るまでに複数日を要する上、オンサイト(野外)では実施できず、相応の実験室環境が不可欠です(お金がどれだけかかってもよいなら全て外注という手もありますが)。最近ではアマチュア研究者でもDIYで挑戦できるほどハードルが下がってきたとはいえ、最終的な塩基配列決定の段階では外注が避けられず、金銭的負担は相当に及びます。また、ここでは詳しくは述べませんが、DNA抽出時における他種のDNAの混入、塩基配列決定時のシーケンシングエラー、データベースに登録された参照配列の誤同定など特有の問題もあり、必ずしも万能の手法ではありません。LAMP法は同定対象に当たりがついているなら強力な同定手法ですが、結果は「陽性」と「陰性」のいずれかであり、予め検出対象に特異的な塩基配列をターゲットとするプライマーを設計する必要があるので、未知の生物の同定に用いることはできないという欠点があります。

画像認識については前回の記事で、「写真から計測値を大量に得ることができる手法」として言及しましたが、そのような形態計測学的用法に限らず、近年は深層学習(ディープラーニング)技術による画像分類を利用し、事前に多数のデータを学習させておけば、やはり同定結果を即座に提示することが可能になっています。画像認識はその場ですぐに結果が出るため、簡便性の面では分子生物学的手法よりも桁違いに優れています。筆者も2年前から様々なきのこの子実層托をUSB顕微鏡で撮影した写真を大量に収集し(第4回参照)、自動同定ツールの開発を独力でコツコツと進めています。

筆者は最近、市民参加型の生物多様性調査プロジェクト「iNaturalist」がリリースした、「Seek」というスマートフォンアプリを積極的に試しています。これはスマートフォンを対象にかざすだけで即座に同定結果が表示されるという、筆者が幼い頃から待望してきた「夢のツール」にかなり近いものだと考えています。類似のアプリは国産、非国産を問わず多数存在しますが、対象の分類群が限られていたり、一度写真を撮影する必要があったり、特定の部位(例えば花や葉)を写さなければならなかったり、無料版では回数制限があったり…など、様々な難点がありました。一方、「Seek」は前述の全ての点をクリアしており、膨大な画像データ(画像認識コンペティション用に公開された「iNaturalist Challenge 2017」データセットは5千種超、67万5千枚の画像からなる)を学習することで高精度の同定を実現し、現在もデータセットの拡充とともに日々進歩しています。結果は学名で表示されるのでそこから和名を調べる手間はかかりますが、読者の皆様もぜひ試してみてください。

しかし、画像認識による種同定には、塩基配列のような客観性・再現性に優れた同定根拠をもたらさないという深刻な欠点があります。また、「Seek」による同定はかなり保守的で、確度の低い同定結果は出さないことを重視していることが見受けられますが(「植物の一種」止まりのことも少なくない)、アプリによっては全く見当違いの結果を表示するものもあり、それを鵜呑みにすると誤同定に繋がるという懸念があります。筆者がある国産のアプリを試したところ、マグロの写真がグッピーと同定されましたが、そのような笑い話で済むような例ばかりではないと思います。

両手法には上述の通り一長一短がありますが、共通するのは、これまで高度な知識と経験を必要とし、「職人技」とすら表現されてきた同定作業を、全くその生物を知らない人ですら遂行しうる点です。これは生物多様性市民科学においては、確かに革命的なブレークスルーだと思います。世界中から得られる生物の観察データはますます膨大になるとともに、同定精度も向上し、それを研究や保全活動に活用できるようになります。画像認識ではスマートフォンの普及が間違いなく追い風としてはたらいており、DNA解析も今後ナノポアシーケンサーのようなポータブル機器が進化すれば、野外で即座に塩基配列データを得ることができる未来はそう遠くないのではないかと思います。

その一方で筆者は、同定のコモディティ化が加速する今だからこそ、同定に当然必要だった様々な手続きをパスし、一足飛びに「先に答えが分かる」ことで生じる弊害についても理解が必要だと考えます。「入力としての標本」と「出力としての同定結果」のみに価値を見出すのであればそれでもよく、実際に人工知能の「教師あり学習」はそのような仕組みになっていますが、実際には生物と向き合う上での「観察」や「思考」にもそれぞれの価値があり、それは少なくとも現在においては、生身の人間にしか成し得ないことだと思います。分子生物学的手法や画像認識で得られる「答え」は、いわば暗闇の中で向かうべき方向を指し示す光明であり、その情報を活用することを躊躇してはいけないと思います。その上で、生物の本質を捉え、いわゆる「同定力」を本当の意味で高めるためには、「答え」に辿り着くまでの過程を自力でも再現できるか、その「答え」が真実なのかを批判的に検討できるかという点もまた重要だと考えます。

中島 淳志 (なかじま・あつし)

1988年生。2014年4月IMIC入職。安全性情報部所属。
学生時代には菌類分類学を専攻。現在は業務の傍ら、アマチュア菌類愛好家(マイコフィ
ル)として、地域のきのこの会等で菌類の面白さを伝える"胞子"活動を行う。
夢は地球上の全菌類の情報を網羅した電子図鑑を作ること。