きのこ×フロンティア

第15回 「generation」

2023.01.11 Wed

菌類・植物

これまでこのコラムでは、きのこの分類・同定に絡めて、自然言語処理やAIに関連する情報技術をいくつかご紹介してきましたが、今回取り上げるのは、この半年で特に急速な発展と「民主化」が進み、台頭著しい「生成AI (generative AI)」です。生成AIとは、その名の通り、AIの中でも文章、画像、動画、音声など様々なメディアを、入力に応じて新たに生成することができるものを指します。生成AIは既に絵画や音楽といったクリエイティブ分野に多大な影響を及ぼしており、まさか単純作業より先に知的で高度な作業を「AIが奪う」ことになるとは多くの人が想像していなかったわけですが、きのこの分類・同定への応用可能性はあるのでしょうか?

きのこの種同定と情報生成には、一見全く関係がないように思えます。なぜなら、種同定は既に記載された種の集合を検索対象とするもので、集合にない未知の種を生成したとしても目的には適いません。例えば、今年は生成AIを利用した「Stable Diffusion」「Midjourney」「NovelAI」などのお絵描き(イラスト生成)サービスが話題になりましたが、「虹色の傘と柄を持つきのこの画像を生成」するようAIに指示し、極めて写実的な、あるいは芸術的価値のある虹色のきのこの画像が生成されたとして、それがこの世界に存在しないものである以上、種同定においては全く意味をなさないわけです。しかし、それは単純に、生成AIの使い方が用途に合っていないというだけです。種同定は「情報検索」の一種と捉えられますが、「情報生成」は「情報検索」を包含する、より大きな概念だと考えられます。生成された結果と検索対象との「距離」を何らかの方法で定義し、最も距離が小さい実在の種名に「着地」させることができれば、情報検索と本質的には変わらないでしょう。

本記事執筆時点で「ChatGPT」という、OpenAIが開発したチャットボットサービスがシーンを席巻しています。ユーザーが何らかの質問をするとそれに対して回答してくれる、という点では従来のチャットボットと基本的に変わりませんが、何がすごいかというと、「GPT-3」という大規模言語モデルを基に作られており、あらゆる知識領域において一貫性のある詳細な回答を生成することができることができる点です。既に様々な用例がWeb上で公開されているので、読者各自のご興味に合わせて検索していただきたいのですが、その卓越した柔軟性を体感すると、「言語に関することは何でもできてしまうのではないか」という期待を抱かざるを得ません。加えて、今後数ヶ月以内には桁違いに大規模な「GPT-4」モデルも公開予定といわれており、さらなる進化が予想されます。

一方、ChatGPTが公開されるとすぐに、全く誤った情報を自信満々で (?) 回答することが話題になりました。そのような「もっともらしい嘘」が混ざっていると、回答のどの部分が真実なのかを結局ユーザーが自分で調べなければならないので、回答全体の信頼性が損なわれてしまうことは否めません。ChatGPTには回答の正確性を裏付ける情報源の提示機能が必須ではないかと思われます。そのためには、個々の知識を情報源と結びつけた教師データでAIを学習させること、複数の情報源の中で信頼性の高いものを判別して提示するための重み付けを取り入れることが必要です。また、筆者が色々と試してみて分かったのは、現在最先端のGPT-3ですら、きのこを含む菌類学のドメイン知識は十分とはいえないことです。きのこの同定というごく限られた用途においても、200年以上にわたって蓄積されてきた人類の全ての知識を参照することは容易ではなく、仮にきのこに特化したファインチューニングを行ったとしても、的確な情報源の提示にはまだハードルが高そうです。

そこで考えられるもう一つの手段としては、ユーザー側から回答の基になる情報を提示し、その中から最良の回答を生成してもらうというように、検索空間をまず絞り込んでしまい、言語モデルが有している普遍的知識体系でそれを解釈させるという方法があります。具体例を挙げると、ある2種のきのこを見分けたいと考えている時に、ChatGPTに両者に関する記述(記載文)を与え、それを基に「最も識別に重要な点」を挙げるよう指示できます。これにより、人間が思いもよらないような着眼点や洞察を得ることができるかもしれません。実際のログを以下にご紹介します。

=================================================

(状況)「アイバシロハツ (Russula chloroides)」と「シロハツ (Russula delica)」というよく似たきのこがあり、見分け方を知りたいとします(同種とする意見もありますが…)。
そこで、以下の2つのWebページから形質に関する部分をコピペし、2種のきのこを識別するにはどこを見ればよいかChatGPTに質問しました。

https://www.first-nature.com/fungi/russula-chloroides.php
https://www.first-nature.com/fungi/russula-delica.php

(注)英語の方が正確な内容が返ってくるので、実際には質問も回答も英語ですが、日本語に翻訳した上で大意をまとめています。

ChatGPT
両種を区別する最も簡単な形質の一つは襞の色です。アイバシロハツの襞は白色で、時に青色を帯びる一方、シロハツの襞は白色か淡クリーム色です。もう一つの形質は臭いです。アイバシロハツにはフルーティーなペラルゴニウム臭がある一方、シロハツには微かな生臭さがあります。
Atsushi Nakajima
柄の頂部の色に違いはありますか?
ChatGPT
はい、両種は柄の頂部の色に違いがあります。アイバシロハツは柄の頂部の襞との付着点が明瞭に青いのに対し、シロハツは柄の頂部の色が不明瞭です。
Atsushi Nakajima
胞子の大きさから区別するのは簡単ですか?
ChatGPT
両種とも胞子の大きさは8-11×6.5-8.5μmの楕円形で、高さ0.75μmの疣が多数連なって不完全な網目状になっているため、胞子の大きさだけでは必ずしも区別がつきません。
Atsushi Nakajima
傘の大きさでは区別できますか?
ChatGPT
傘の大きさは両種を区別するための形質として利用できる可能性があります。前者は直径5-13cm、後者は5-18cmの傘を持っています。しかし、傘の大きさは必ずしも同定に信頼できる特徴とはならないことに注意が必要です。

===================================================

ということで、ChatGPTはユーザーの質問に応じて、所与の情報から質問の回答を極めて的確に抽出できることが分かりました。元のWebページを十分な読解力のある人間に見せた上で同じ質問をしても、おそらく同様の答えが返ってくるのではないかと思います。しかし、筆者が何より驚いたのは、ChatGPTからの最後の回答で、「傘の大きさがきのこの同定に必ずしも信頼できない」と付言している点です。これはまさに正しい知識で、実際に傘の大きさから両種を識別することは困難ですが、所与の情報には含まれていない内容です。きのこの同定に関する普遍的知識をChatGPTの側で「理解」していることのあらわれです。誠にびっくり仰天です。

また、筆者がAIに提示する情報源として重要だと考えるのは、多数の知識と情報源を結びつける「ハブ」のような役割を果たすデータセットです。以前の記事で、筆者が約10年にわたって1日3本の菌類学文献を読み、索引付けしていることをご紹介しましたが(ついに先日「1万本」を達成しました)、その過程で索引付けと同時進行で収集していたのが「識別形質 (diagnostic characters)」に関する記述です。これはある菌と別の菌のどの形質が同一か、あるいは異なるかという記述で、例えば両種とも「傘の色が赤色」だとか、「柄の色は片方は白色でもう片方は褐色」、といった記述を指します。筆者がHugging Face Datasetsで公開している「識別形質まとめ(fungi_diagnostic_chars_comparison_japanese)」データセットには、このような記述が情報源に紐づいた状態で約30万件収録されています。このデータセットを所与として、同定したいきのこに最も関連がある部分を提示してもらうことができれば、元の論文に結びついている情報なので、検証可能性の担保という点では優れたアプローチとなるのではないかと思います。

生成AIの一般的な利点としては、ノーコストでほぼ瞬時に答えが得られること、事前のプログラミングやルールの明確化を必要とせずに様々な質問を柔軟に処理できることなどが挙げられますが、「パーソナライズ可能」という特長が特にきのこの同定に有用ではないかと考えられます。きのこの同定には標本の形質だけでなく地域、季節、過去の観察記録など様々な情報を総動員する必要がありますが、著者が「主に日本の関東地方の里山で観察を行っており、これまで何月にどんなきのこを見てきている」という情報をAIに加味してもらえれば、自分独自のAIエージェントとして強力なパートナーになってくれるのではないかと期待できます。判断に有用なのは必ずしも「全人類の集合知」ではなく、検索空間としては桁違いに狭い「これまでの人生で得てきた個人知」である場面も多いからです。また、ChatGPTは「Text to Everything」の世界を予感させますが、入力のモーダルに画像が追加されるだけでもさらに飛躍的な進歩が達成できると思います。きのこの写真から形質のセット(記載文)を出力し、最も近い形質セットを持つ種名に「着地」させることができれば、単なる画像認識より説明可能性や再現性がずっと向上するはずです。

…と、ここまで技術的な内容を書いてきましたが、実は最近、筆者の最大の関心事は全く別のところにあります。筆者はいくつかのローカルなきのこの同好会に所属しているのですが、主要なメンバーが体調不良など様々な理由で活動不能になる事態が相次いでいます。筆者が子どもの頃に既にご高齢だった方々なので、その後10年から20年も経つと避けられないことかもしれませんが、特に若いメンバーが加わっているわけでもないので、次の5年、10年を考えた時に、会の存続も厳しくなることが危惧されます。これまできのこの同定は詳しい人から口伝で学ぶしかなかったのですが、パーソナライズされたAIは、個人だけでなく組織・団体の集合知をも「保存」し、次世代に「継承」させる援けになるのではないかと考えます。また、今年は特に各地のきのこの会の観察会を見学させてもらう機会が多かったのですが、知識のアセットは会ごとにかなり異なっており、やはりその土地でよく見られる(特に、食べられる)きのこは強く認識されている一方、確かにその場所に生えているのに全く名前をつけられないきのこがあって驚いたこともありました。近い将来、パーソナライズされたAI同士の交流が、会ごとの独自色の鮮明化と普遍的知識の補完を実現することができるかもしれません。