きのこ×フロンティア

第13回:「想い」が背を押す

2021.11.30 Tue

菌類・植物

「Wikipediaの全記事を学習させました」「数百万の科学論文の全文を学習させました」…最近のAIの能書きを眺めると、さも大したことないことのように「さらっと」述べられていることですが、改めて考えると途方もないことです。もちろん、その「全記事」「全文」の量が、一人の人間が扱える規模を遥かに超えていることがまず驚くべき事実なのですが、筆者が注目しているのはむしろ、それだけの膨大なデータをコンピュータが「一様に」処理できるということです。人間がそのようなデータを扱おうとすると、ジャンルごとに別々の人が、異なる分類体系に基づき、様々な粒度のラベルやタグを付けるなどして整理していかなければなりません。好き嫌いや作業者ごとのクセ、あるいは忖度や先入観などが影響する可能性もあります。一方、コンピュータは例えばBERTのMLM(いわゆる「穴埋め問題」)やNSP(ある文の次に続く文を予測する)のような単一の学習方法を、全データに等しく適用することができます。その過程では、専門家が書いた文章も素人が書いた文章も、プロのカメラマンの写真も私がスマホで適当に撮った写真も、みな「平等」であり、目的のタスク(例えば文書分類や画像認識)に有用であれば重視され、効果が無ければ使われないというだけのことです。そして、モデルが高度かつ複雑になればなるほど、その内部では柔軟な抽象化がなされ、出力結果から元のデータを推測することは難しくなるでしょう。そこで筆者は一つ気に掛かることがありました。AIに「食わせた」時点でデータが単なる記号の羅列として表情を失い、「匿名化」されてしまうのなら、それぞれの元データに込められた「想い」はどこに行ってしまうのでしょうか?

「きのこ」と「AI」を組み合わせると言った時に誰もが思い付くのが、きのこの写真から種類を判定するアプリです。毎年秋になると痛ましい中毒事故が発生することから、生き物好きの間だけではなく社会的なニーズも大きいことは間違いないですが、筆者は正直なところ、それに関しては全く真剣に取り組んだことがありませんでした。自分より高度な技術を持った誰かがより良いものをすぐに作ってしまうだろうと思っていましたし、海外で質の低い「鑑定」アプリが「命にかかわる」と指摘されて炎上騒ぎになっていたのも知っていたので、敢えてコストを掛けたり、リスクを負ったりする必要はないと考えていたからです。しかし結局のところここ数ヶ月、筆者は「きのこ判定AI」作りにのめり込むことになりました。その理由の一つは、まず既存のスマートフォンアプリに精度や価格の面で不満があったからです。海外産のアプリのほとんどは現状使い物にならないレベルですし、観察会に来た子どもが、月額課金の怪しいアプリをダウンロードしようとしていたのを慌てて止めたこともあります。また、いわゆる自動機械学習 (AutoML) 技術の発展によって学習コストがぐっと下がり、写真さえ揃えてしまえばかなり簡単にAIが作れるようになったのも契機となりました。しかしながら、一番の動機としては、自分で実際にAIを作ってみることによって、AIがきのこというものをどう捉えているか、果たしてAIがきのこと真摯に向き合っているのか、ということを試してみたかったのです。

そして出来上がったのがこちらのAIです(https://huggingface.co/spaces/Atsushi/kinoko-mini-AI)。無料なのでぜひアクセスしてみてください。本稿執筆時点で615種類、約10万枚の写真が学習に使われており、精度は6-7割程度です。もちろん筆者一人でそれだけの写真を撮影したわけではなく、他の方が撮影した写真を多数拝借しています(※2019年1月1日施行の改正著作権法30条の4を根拠に、著作権者の承諾なしに利用することができます)。特にこだわったのは、「日本国内で撮られた写真のみを使う」という縛りルールです。インターネット上できのこの学名を検索すれば、その種の世界中で撮られた何千、何万もの写真をすぐに取得することができますが、同じ学名があてられていても、やはり国内と海外とでは明らかに別物、というケースがきのこの世界では少なくないのです(例えば、欧米のエノキタケからは何となく「英語をしゃべり出しそうな雰囲気」を感じます…私だけかも)。Googleレンズを含め、世の中の多くの画像認識アプリは、そのようにネットの海から「地曳網方式」で楽に入手した写真を学習させているのではないかと思いますが、筆者はデータの質を少しでも高めるために、半年以上かけてほぼ手作業で写真を収集してきました。明らかな誤同定の写真を除いた上で10万枚の写真を確保するのはかなり根気の要る作業でした。また、完成したモデルのデプロイ(公開)については、いくつかの方法を試してみたのですが、動作が遅かったり、複数人が同時にアクセスするとサーバーが落ちてしまったりと、なかなかうまくいきませんでした。そんな中で、現在自然言語処理分野で破竹の勢いがある「Hugging Face」社による「Spaces」というサービスが始まったのは、まさに渡りに船でした。これは、機械学習のモデルを頑張って作成したけれども、どのように全世界に公開すればよいか分からないという人にとっては、現時点で最良の選択肢と言えるかもしれません。

早速出来上がったAIを持ってフィールドに出てみたところ、さすがに完璧な精度と言うには程遠いものの、かなり近い複数の種名を候補に挙げてくれるので、特に初心者の方にとっては十分有用だろうという印象でした。人間が同定する時と同じように傘の裏(子実層托)が映っていた方が精度がよいことや、やはり「野に置かれた」状態が一番よく、手に持ったり、新聞紙に置いたりすると精度が一気に下がることなど、AI判定特有の撮影のコツがあることも分かってきました。もしかすると、今後はきのこ写真の評価にあたっては、人間にとっての審美的要素だけでなく、「AIフレンドリーかどうか」という観点も重要になってくるかもしれません。

ところで、様々なきのこを実際に試す中で、一つ筆者の心が動かされた出来事がありました。雨風に曝されてかなり劣化が激しく、一見して種名が浮かばなかったきのこがあるのですが、AIに尋ねると即座に「ガンタケ」という答えが返ってきました(その時の写真は撮っていなかったので、この記事の写真はイメージです)。確かに子実体の傷ついた部分が赤変する点が一致しますし、よく見るとテングタケ類特有の「つば」と「つぼ」もあり、雨でほとんど流されていたものの、傘の上にガンタケの特徴である「いぼ」が僅かに残っていました。よくまあこんな状態の子実体を正しく判定できたものだと感心しつつ、帰宅した後にガンタケの学習に使用した写真をぱらぱらと眺めてみると、たった一枚だけ、筆者が野外で見たのと同じような、激しく老成した子実体が映っていたのです。その写真を撮ったのは先日亡くなった方で、定年後毎日のようにあちこちに出掛けてきのこを撮影し、たくさんのきのこの解説文と写真を収録した素晴らしいホームページを作り上げていたアマチュアの方でした。筆者もあるイベントでお世話になったことがあったのですが、直接お会いすることはありませんでした。実際のところは、判定結果にその写真がどれほどの影響を与えたかは「AIのみぞ知る」なのですが、私にはその方のきのことの「出会い」、さらに言えばきのこに懸けてきた「想い」が手を貸してくれたような気がしたのです。

AIの技術はまさしく日進月歩で、そう遠くない将来に「インターネット上の全てのきのこに関する文章や写真を学習済み」のAIが出てきてもおかしくないと思っています。そこで問題になるのは、それが現実世界に生きているきのこの姿と多様性をどれだけ網羅できているかということです。短い人生の中でこの世に足跡を残すということは容易なことではありませんが、たとえ直接誰かの助けになる状況が想像できなくても、現実世界を文章や写真といった知のカケラに変換し、インターネットという集合知のプラットフォームに載せ続けることが大事なのだと思っています。唯一自分だけが経験した固有かつ特別な出会いが、きのこの種概念のどこかの片隅を埋めていき、いつか見知らぬ誰かの力になると信じているからこそ、孤独の闇の中でもしっかりと前を向いて進んでいけるのだと思っています。

中島 淳志 (なかじま・あつし)

1988年生。2014年4月IMIC入職。安全性情報部所属。
学生時代には菌類分類学を専攻。現在は業務の傍ら、アマチュア菌類愛好家(マイコフィ
ル)として、地域のきのこの会等で菌類の面白さを伝える"胞子"活動を行う。
夢は地球上の全菌類の情報を網羅した電子図鑑を作ること。