きのこ×フロンティア

第12回:saturation

2021.05.12 Wed

菌類・植物

前回の記事から約半年が経過しましたが、その間に筆者の中では一つの区切りがありました。筆者にはIMICに入職する以前から、毎日きのこの論文を読む習慣があり、読んだ内容を自前のデータベースに蓄積してきたのですが、それを単なるエクセルデータにまとめるだけでなく、俯瞰的に可視化し、誰でもインタラクティブに検索できるようにできないかと考えてきました。7年以上考えてもよい方法が思いつかなかったのですが、この度「Observable (https://observablehq.com/)」というデータ可視化サービスに出会い、それの手を借りて、ようやく自分がやりたかったことをある程度形にできたところです。今回の記事ではその概要をご紹介します。

きのこ論文の検索サービスは以下のURLから使用可能です。
https://tinyurl.com/2tvryz8u

詳細な使い方は割愛しますが、種を表す灰色または黄色の円の上で右クリックすると、その種を掲載している筆者がこれまでに読んだ論文の一覧が画面下に表示されます。各論文には筆者が独自に体系化したシソーラスを基に索引を付与しています。必要に応じて索引や菌の和名・学名で絞り込むこともできます。

Observableは「D3.js」をブラウザ上で作成・実行・共有できるサービスで、「Jupyter Notebook」をご存知の方はそれに近いものと捉えていただければ結構です。D3.jsはデータ可視化を目的とするJavaScriptのライブラリです。これがどれだけ美麗な可視化により、(公式サイトの言葉を借りれば)「データに命を吹き込む (bring data to life)」ことができるかは、ここで説明するよりも使用例 (https://d3js.org/) を眺めていただくほうがずっと早いです。D3.jsを使えば様々なタイプの可視化が可能になりますが(多少のプログラミングスキルは必須)、中でも筆者がきのこ論文データの可視化に最適だと考えたのは「ズーム可能なサークルパッキング (zoomable circle packing)」という手法でした。

サークルパッキングは第9回の記事でも取り上げていますが、階層構造のある大量のデータの可視化に適しており、各階層の構成要素の「数」と「割合」を一度に俯瞰できるという利点があります。私が作りたいのはきのこの種名を入力するとそれが載っている論文を検索できるツールだったのですが、きのこの分類は他の全ての生物と同じく階層構造を取っているので、この手法に適しています。加えて、サークルパッキングにズーム機能を付けることにより、注目すべき対象を絞り込める、すなわちデータの解像度をユーザーが任意に変えられるという利点があります。詳細は省きますが、実は大抵のデータは工夫次第で階層データとして扱えるということもあり、個人的にはデータ分析は「初手サークルパッキング」でもよいのではないか、というくらい筆者はこの手法を愛用しています。

棒グラフでは個々の要素の全体における割合を捉えづらく、要素数が増えるごとに縦長になってしまい、円グラフは逆に基本的には割合しか表せませんが、サークルパッキングではいずれの点も問題ありません。ただ、様々な書籍やブログなどを参照しても、サークルパッキングが特段好意的に扱われている事例を筆者は見たことがなく、むしろ同機能の「ツリーマップ」に比べて無駄なスペースが多いので空間効率性が悪い、と紹介されがちです。しかし、個人的にはツリーマップは視認性に乏しく、むしろスペースに余裕があることが階層構造の把握を容易にしていると感じています。なお、サークルパッキングの欠点としては、構造上の制約として最下層の円以外の面積は正確でないこと、ヒトが円の面積の知覚を不得手としているので精密な比較は棒グラフに劣ることなどが挙げられ、利点と欠点を十分理解して使用する必要があります。

本稿執筆時点で掲載種は2万5千種を超えているので、一般的なグラフで扱うデータ数を大きく超えていますが、Observableの動作はかなり安定しています(これ以前にPlotly Dashで作ったWebアプリは動作が重くストレスフルでした)。筆者は『ビッグデータの正体』(講談社、2013年)で提示された、ビッグデータの出現によりデータ分析が従来の「標本に基づく推定」から「全てのデータを扱う(N=全部)」ものに変化したという画期的な考え方に衝撃を受けたのを覚えていますが、数万件ものデータを円の中に充たすことができ、それが条件を選ぶごとにあれこれ絞り込まれる「さま」を一目で把握できるというのも、まさに時代の変化が可能にしたことではないかと思います。

ところで、なぜ筆者が長年飽きもせずにきのこの論文に没頭してきたかという点については、単に社会人になると野外できのこに触れる機会が確保しづらくなり、きのことの関わりを続けていくには逆にそれ以外の手段がなかった、というのが最大の理由です。元々研究より論文を読む方が好きだったのですが(IMICに応募したのも、実は就活サイトで「論文」と検索すると唯一出てくる企業だからでした)、最近はインターネットを介して大抵の論文をいつでもどこでも入手し、スキマ時間に読むことができます。私が知る限り、専門家がこの分野のデータキュレーションに取り組んでいる例はなく、アマチュアなので評価も業績も一切気にしなくてよいとはいえ、いわば「ラストリゾート」が「ブルーオーシャン」だったというのは本当に幸運だったと思います。いずれ専門家が参入したり高性能な人工知能が現れたりして、これまで独力で積み上げてきたものがあっという間に追い抜かれてしまうまで、もう少しだけでもこのリゾートを満喫したいものです。

これまでデータベースに集積してきた論文の数は本稿執筆時点(2021年5月5日)で8,385本なのですが、とりあえず1万本を目標にしてきたので、もう一息といったところです。ある漫画の登場人物が一日1万回「感謝の正拳突き」の修行を成し遂げたのに感銘を受けて、それでは自分は、人生を豊かにしてくれた「きのこ」に対する感謝を表すために1万本の論文を読もう、と思い立ったのが最初のきっかけでした。それは2013年のことで、筆者がIMICに入職するよりもさらに前のことです。

また、読んだ論文に索引を付けるというアイデアは、実は全然きのことは関係なく、ある海外のサイトで日本の漫画やアニメのファンアートがタグ付けされているのを目にしたことがきっかけです。いわゆる「集合絵」といって、数百ものキャラクターが描かれるイラストがあるのですが、それぞれのキャラクターの名前や登場する作品はもちろん、髪の色、瞳の色、服やアクセサリ、さらには表情やポーズ、背景までもがタグ付けされており、驚くべきことには人の手でそれがなされているようでした。はっきり言って狂気の所業だと感じました。しかし、この気の遠くなるような作業があってこそ、そのサイトでは様々な切り口から自由自在にイラストを検索することが可能になっていたのです。イラストからタグを推測可能な「illustration2vec」や「DeepDanbooru」という手法が発表されたこともあり、この作業はやろうと思えばある程度自動化できると思われますが、DeepDanbooruが7,112種類(執筆時点)のマルチクラス分類器である一方で、タグの種類は130万種類を超えていることもあり、調べた限りでは、現在も膨大な手間をかけてマニュアルでのタグ付けがなされているようです。

きのこの論文でも同じこと、つまり一つの論文に対して「飽和状態」に達するほど大量の索引(タグ)を付けることができれば、これまで集積されてきた莫大な知見へのアクセスが少しでも容易になるだけでなく、日本語の索引を用いて言語の壁を超えた検索も実現できるのではないかと思いました。IMICに入職した後に本当に驚いたのですが、業務で日々扱っている医学文献データベースの「MEDLINE」や「EMBASE」は、まさに専門家がその目的で個々の論文に対して体系的な索引付けを行ったもので、自分で思い付いたと思っていたことがこの業界では当たり前のことだった、ということで見識の狭さに恥じ入った次第です。

MEDLINEの索引付けの自動化はコンペティションになっているほどですが(BioASQチャレンジ)、きのこの論文に特化した「索引付けAI」は未だ存在せず、それを自ら作る技量もないので、筆者のデータベースもまた地道に手作業で構築されています。論文を読んで大意を掴むだけなら5分もあれば十分なことがほとんどですが、索引付けをしたり、識別形質など必要な情報を抽出したりするのには、どんなに短い論文でも15~30分はかかってしまいます。自動化の可能性は常に模索し続けています。

また、1万本を読み終えるまでに現在のペースではあと1年半かかりますが、そもそも今まで継続できたのも健康面、生活面などで恵まれた環境があってのことで、必ずしも順調に1万本が達成できるとは限らず、その次の1万本を考えた時にはさらに不確実です。そこで筆者が次に目指すべきことは、索引付けの自動化だけではなく、仮に自分が何らかの事由で論文が読めなくなったとしても、システムが自律的に論文の情報を収集・処理し、自ら成長してアップデートしていくための手筈を整えることだと思っています。例えば「COVIDScholar (https://covidscholar.org/)」は自然言語処理の手法を用いてCOVID-19に関する文献を自動で集約・分類して情報を提供しており、当面の目標といえる存在です。

中島 淳志 (なかじま・あつし)

1988年生。2014年4月IMIC入職。安全性情報部所属。
学生時代には菌類分類学を専攻。現在は業務の傍ら、アマチュア菌類愛好家(マイコフィ
ル)として、地域のきのこの会等で菌類の面白さを伝える"胞子"活動を行う。
夢は地球上の全菌類の情報を網羅した電子図鑑を作ること。