その本の「はじめに」には、著者の「伝えたいこと」がギュッと詰め込まれています。この連載では毎日、おすすめ本の「はじめに」と「目次」をご紹介します。今日は岡野原大輔さんの『 AI技術の最前線 これからのAIを読み解く先端技術73 』です。
【まえがき】
この本は私が『日経Robotics』誌に2015年7月から毎月連載している「AI最前線」を一つの冊子にまとめたものです。私が毎日読んでいる論文や、見聞きしたニュースの中から重要な話題を取り上げ書いて来ました。
進歩が早いAI業界においては速報性も大事であり、一番早い例だと重要な論文や研究成果が世の中に公開された場合、1日以内に記事に書き上げ半月以内で誌面に掲載される例もありました。一般の方が読む記事としてはウェブ記事も含めて国内のみならず世界最速であっただろうという自負があります。
近年のAIの進展は著しいものでした。2012年にAlexNetと呼ばれるニューラルネットワークが一般物体認識コンテスト(ImageNet Large Scale Visual Recognition Challenge: ILSVRC)で2位以下に大差をつけて優勝し注目された、いわゆる「AlexNetモーメント」が起きてから急速に世界中の研究者や企業が注目し始め、それからはほぼ毎年、毎月のように世の中をあっといわせるような成果が登場してきました。本書が取り上げる記事はそのような成果の多くをほぼリアルタイムで伝えたものです。
一方、こうした研究や成果は突然登場したものではなく、全て萌芽的な研究や取り組みから逐次的、連続的に発展していったものです。例えば、2022年春頃に登場したDALL・E 2やImagenは、テキストから画像を驚異的な忠実性や表現力で生成でき世の中を驚かせました。この中で使われている拡散確率モデル(Diffusion based probabilistic model)に必要な技術は徐々に成長していきました。2014年の変分自己符号化器(VAE)、2017年のVariational Walkback、2018年のNeural ODEであり、さらに源流を辿れば1995年に登場したヘルムホルツマシンにたどり着きます。これらの先駆的な研究は、結果だけ見れば実用化には程遠いようなものでしたが、研究者の視点からは今後の可能性がみられる興味深いものであり、着実に進歩していきました。先程挙げた手法(VAE, Variational Walkback, Neural ODE)はまだ世の中で注目されていない段階で、全て登場時点で取り上げてきました。
まだ世の中で実用化まで至っていないものの注目している技術も多く取り上げています。例えばNeRF(Neural Radiance Field)などによる新視点シーン生成は今後実世界にAIを導入していく上で非常に大きなインパクトがあると考えられます。また、SLAMなど自己姿勢推定/空間復元の技術はすでにロボットなどで広く利用されていますが、本書で取り上げた技術はそれらをより高精度に難しい環境下で高速に処理できるような手法です。メタバースやデジタルツインのように実世界と仮想世界の境界が徐々に小さくなる中で、これらの技術はそれらをつなぎ合わせる糊のような役割を果たし重要になると考えられます。
また強化学習による最適制御も注目されながらもまだ実世界での大きなインパクトが生み出されていない分野の一つです。強化学習の現実世界での実用化における重要な問題として大量の試行錯誤が必要なことが挙げられます。本書で紹介したような世界モデル、シミュレーションとの融合が進むことにより、より広い分野で活用が広がると考えられます。
AIの技術発展には3つ特徴があると考えてます。スピード、ボーダーレス、創造性という点です。
1つ目のスピードについては、今のAI技術は論文やコードが瞬時に世界中に共有され、SNSですぐ議論が始まり、YouTubeなどで解説動画が登場します。例えば大きなインパクトがある研究が登場した場合は、またたく間にコミュニティに広がり1カ月後には後続研究が登場し始め、半年や一年後の学会にはそれを利用した手法の論文が登場します。一番最初に手法を提案した論文と、その後続研究、さらにその後続研究が同じ学会の同じセッションで発表されることも稀ではありません。こうしたスピード感も本書で伝えられたらと思います。
2つ目のボーダーレスについては、今のAIは特定分野向けの手法ということがなく一つの分野で成功した手法がすぐに他の分野に広がっていくことです。例えばディープラーニング自身は一番最初は音声認識の分野で成功しました。大量のデータを使って学習すれば様々な工夫をすることもなく学習が成功し、高い性能を発揮できる。この結果を画像認識にも使えないかということで2012年のAlexNetが登場しました。この研究成果は時間差はあれその後、自然言語処理や化合物など他の分野に導入されていきました。同様に自然言語処理(機械翻訳)の分野で最初に登場したTransformerも、その後画像認識など他の分野にまたたく間に広がっていきました。このような手法のボーダーレスは自然界に見られる何らかの共通する法則性があるのではないかと考えさせられます。
3つ目は、AI技術の発展でインパクトのある成果は常識や従来の知識からは外れたところから登場するというものでした。優れた直感と実験能力に基づき驚くような結果が出て、しばらく経ってからそれを説明できるような理論が登場する流れが続いています。こうした結果を見るたびに、技術発展を妨げている最大の要因は創造性の欠如であり、常識にとらわれない柔軟な発想が必要なのだと思わされます。本書を通じてこうした柔軟な発想も見ていただけたらと思います。
本書や連載記事を執筆するにあたり、編集者の進藤さんにはいつもお世話になりました。毎回技術内容の誤りや不明瞭な点についても鋭く指摘をしていただけました。また連載記事は筆者の勤務先であるPreferred Networksの同僚の方々にもチェックしていただき間違いやコメントをフィードバックしていただきました。
一方、本書中に間違いなどがありましたら筆者の責任です。書いた当時の雰囲気を残すため内容についてはできるだけ連載時の表現を残すようにしています。
本書を通じてAI技術の最前線で何が起きているのかを知っていただき、興味を持っていただければ幸いです。
2022年6月 岡野原 大輔
【目次】