きのこ×フロンティア

第16回「ふわふわとがっちりの狭間で」

2023.07.06 Thu

論文 菌類・植物

この半年間、私たちはChatGPTに代表される大規模言語モデル(LLM)が音を立てて世界を変革していく様子を目の当たりにしてきました。筆者も毎日のようにChatGPTと向き合い、その秘められた能力と可能性を探求し続けています。ChatGPTを「神の民主化」と評する向きは些か行き過ぎのようにも思えますが、それでも少なくとも、かつてそれができれば「神業」と言われたレベルの技能に、誰もが手を伸ばせば届くようになったことは間違いないでしょう。筆者がイメージしているのは「羽の生えた靴」です。よくテレビゲームでは「見えるけど辿り着けない場所にある宝箱」が登場し、物語が進んで新しいアイテムを手に入れると初めて開けられるというギミックがありますが、筆者が子どもの頃から多数抱いてきた、「思いついても実現不能だったアイデア」もまさにその類です。好奇心の赴くままに駆け回るには少々年を取りすぎてしまいましたが、今ならLLMの力を借りて、これまで諦めていた様々な夢を叶えることができるのではないかと思っています。

菌類学に関連する様々な「夢の技術」の中で、とりわけ筆者にとっても学問全体においても待望の的といえるのは、やはり「誰でも目の前の菌類を同定できるツール」です。これまでその実現に向けて最も有力視されてきた手段は、「深層学習による画像認識」ではないかと思います。このコラムでも事例を紹介してきた通り、画像認識の技術は近年急速に発展しており、誰もが高画質のカメラ付きスマートフォンを手にした現代の状況にもよくマッチしていることから、今後も強力な手段であり続けるのは間違いないと思います。実際に「iNaturalist」には、写真をアップロードするだけでシームレスにAIが候補種を絞り込んで提示する機能があり、正確な同定結果を返してくることもしばしば経験しています。一方、従来の画像認識には限界もあり、例えばマクロレンズや光学顕微鏡で撮影された「スケールの異なる写真」は、学習データの乏しさからほとんど同定の役に立たないのが現状です。複数枚の写真に基づく推定や、候補分類群をある程度絞り込んだ上で精度を高めるといった基本的と思われる機能も、技術的制約から容易には実現できていません。また、生息環境、宿主/基質、発生時期、味、臭いといった同定に重要な情報は、そもそも画像という媒体では必ずしも伝達が容易でないという問題もあります。

そのような状況において、LLMの登場により「自然言語」の利用可能性が広がったことは、大きなブレイクスルーとなりうる出来事だと考えています。自然言語の柔軟性はユーザーにとっての選択肢の多さに直結します。LLMは様々な表現や文脈に対応する能力を持っているため、断片的な情報、僅かな情報、専門用語ではない口語的な表現からでも手軽に同定を試みることが可能です。また、LLMの長所はユーザーとの「対話」の過程で漸次的に目標に近づくことができる点です。候補種の絞り込みに必要な情報、足りない情報を、エージェントの側からユーザーに求めることができるのは画期的です。まるで重力の軛から解放されたかのように、菌類の持つ多様な形質情報を自由自在に活用し、異なるアプローチで答えに辿り着くことが可能になりました。

もちろん、自然言語にも特有の欠点は存在し、柔軟であるがゆえに曖昧であり、再現性に乏しいという点が指摘されます。いかに大規模なデータセットを学習したLLMといえども、必ずしも菌類の知識は十分でない上、その汎用性が祟って誤解を生んでしまうことも十分あり得ます(例えばきのこの傘[cap]を帽子[cap]と解釈してしまうなど)。実際、本稿執筆時点で「素の」ChatGPTを用いて菌類の同定を行うことは、有料版でしか使えない高性能な「GPT-4」を用いたとしても、ほとんどうまくいかないのが現状です。それでは、ChatGPTを正確性を兼ね備えた「同定支援エージェント」とするためにはどのような工夫を行えばよいかと考えると、有望なのは「構造化データの併用」ではないかと思われます。

構造化データは自然言語や画像のような非構造化データと異なり、JSONなどの機械可読性の高い形式を取ります。また、統制語辞書を用いることで、その内容にも一定の制限を加えることが可能です。明確な値を持つことでデータの一貫性が担保され、解釈の余地が少なくなる一方、同様に構造化データを基に構築されたデータベースを高精度で検索することが可能になります。2023年6月に公開されたOpenAI APIの「関数呼び出し (function calling)」の機能を使うことで、自然言語の構造化は従来に比べてずっと容易になりました。この機能を介した外部データベースへのアクセスが、私が現在構想している同定支援エージェントの肝となる部分です。具体的にはこの機能を用いることで、ChatGPTがユーザーからの入力に応じて自ら「どの道具(関数)を使えば目的が達成できるか」を判断し、外部の「分類群データベース」「標本/観察記録データベース」「形質データベース」などを参照することが可能になります。データベースの検索や集計、統計解析といった再現性が求められる部分はPythonの関数が担うため、ちょうど自然言語の曖昧さを補完できるということになります。そして、関数から返ってきた結果を基にLLMが柔軟な処理を行うことで、単なるデータの羅列に留まらない、「気の利いた」回答が行えることは、同定精度のみならずユーザーの満足度向上にも大いに寄与すると考えられます。適切なデータ可視化手法(以前の記事で紹介したサークルパッキングなど)と組み合わせることも重要です。

なお、いずれのデータベースも単純に検索をかけて情報を抽出できるだけで十分有用で、特に「分類群データベース」は菌類の流動的な分類をキャッチアップする上で不可欠ですが、確率的推論を取り入れることでさらに強力になると考えます。例えばGBIFのような「標本/観察記録データベース」の場合、データの数を基に普通種を優先的に提示したり、特定の地域・季節を加味して発生確率の高い種を特定することなどが可能になります。また、「形質データベース」の場合は大量のデータを集計し、形質ごとに算出した尤度比やオッズ比を重み付けに使用することで、エージェントが現段階の絞り込み状況を基に識別価値の高い「最善手」となる形質を特定し、ユーザーにそれを質問することができるようになります。他にも筆者が認識していないだけで、同定に役立つデータベースがあるかもしれず、次の数ヶ月の間にまた価値観をひっくり返すような新たな技術が発表されるかもしれません。ほんの少しだけ重力が弱くなったこの世界を縦横無尽に飛び回るには、柔軟な思考と確固たる軸の両方を持ち合わせることが大切だと思います。

中島 淳志 (なかじま・あつし)

1988年生。2014年4月IMIC入職。安全性情報部所属。
学生時代には菌類分類学を専攻。現在は業務の傍ら、アマチュア菌類愛好家(マイコフィ
ル)として、地域のきのこの会等で菌類の面白さを伝える"胞子"活動を行う。
夢は地球上の全菌類の情報を網羅した電子図鑑を作ること。