グーグルで情報革新を担った著者が語る 『数学の美:情報を支える数理の世界』
記事:東京化学同人

記事:東京化学同人
このように述べる著者の呉軍(ウー・ジュン)は、北京で生まれ、ジョンズ・ホプキンス大学でPh.D. を取得した俊英である。グーグルに入社し、ウェブ情報検索を皮切りに、日中韓三カ国のプロダクト(製品)部門を立ち上げ、グーグルの自然言語処理や自動応答システムの研究プロジェクトを主導した。アジア言語のコンピュータ処理における草分けの一人といえるだろう。
その後、グーグルチャイナやテンセント副社長を歴任。本書は、彼がグーグルチャイナ時代に執筆した人気ブログがもとになっている。プロダクトの根底にある数学を紹介したこのブログは、中国の知識人を中心に熱烈なファンを集め、本書の原著は中国でベストセラーとなって版を重ねている。本書はその最新版だ。
本書の特徴の一つは、キャッチ―な題材を取上げ、その数学的な仕組みをわかりやすい筆致でひもとくところにある。数学の話題は専門的知識が必要で難しくなりがちだが、彼は数学の威力と魅力を実に巧みに書き切っている。
話題は、「自然言語処理」「人工知能」「ニューラルネットワーク」「深層学習」「音声認識」「機械翻訳」「ウェブ検索」「ブロックチェーン」「量子通信」…34話と豊富で、一つ一つが短く、読みやすい。
どの話題が面白いと感じるかは、読む人次第なのも魅力だ。本書の監訳者と訳者と編集者の間でも、イチ推しの章が分かれた。それでは、いくつかの章を選んで紹介しよう。
「自然言語処理」という言葉は、生成AIの登場とともに耳慣れた言葉になりつつある。けれども、言葉を機械で処理しようという「自然言語処理」研究の歴史は古く、70年ほど前までさかのぼる。
当初は、言語学の伝統に則って文法(ルール)ベースのアプローチがとられた。しかしこのアプローチでは研究が足踏みしてしまい、実用化には至らなかった。現状の隆盛につながる契機となったのはアプローチの変更、すなわち統計的な手法を試みたことによる。
70年にわたる研究の歴史をひもときながら、アプローチにより対立する研究者集団がそれぞれどんな歩みをみせたのかも人間臭く描き出し、「正否はさておき、自らの立ち位置を変えるということは、誰でも簡単にできることではないが…」と、科学史上よく起こることへの教訓も語っている。
「数理モデルは大変重要である。この重要性を説明するために、2006年7月、私がグーグルチャイナで行った検索の基本原理に関する社内研修では、30時間たらずのカリキュラムのうち2時間をまるまる数理モデルにあてた。また、2010年にテンセント社に転じてからも、はじめの社内研修で同様の内容を講義している。」 第19章では、天体モデルの変遷を例にとり、良いモデルの本質は何かを議論する。訳者によると、「著者が一貫して言いたいこと」をよく表している章とのこと。
せっかくなので、アジア言語ならではの漢字の話題も紹介しておこう。中国における漢字入力法の変遷に触れつつ、その数理を扱う章がある。中国では漢字の入力法が3度変遷したという。みながみな漢字を入力する際のキーボードのタッチ回数を減らそうとするあまり、入力がどんどん複雑になっていき、最終的にはタッチ回数は増えるけれどとてもシンプルな方法におちついたという。
この著者の手にかかると、考え方を切り替えて問題が解決される瞬間の気持ちの良い驚きがありありと体感できる。
もちろん、「隠れマルコフモデル」や「情報エントロピー」、「グラフ理論」といった数理そのものを扱う章も多い。そして、それらの数理や数学的ツールが、日常私たちがよく使う技術の根底にあることが語られる。たとえば、「ブルームフィルター」は「このメールアドレスはスパムアドレスか?」など、ある集合にその要素が属するか否かを識別する際に使う数学的ツールだ。では、どのように識別するか。乱数と確率を巧妙に使うやり方がわかりやすく説かれ、この問題をこのように鮮やかに解決したのか!と、ここでも気持ちの良い驚きが待っている。
そしてもう一つ、本書の魅力は、著者が共に仕事をしてきた世界的な開発者についての語りだ。大学時代の恩師で統計的自然言語処理の父であるイエリネック博士、グーグルの上司でプロダクト開発の姿勢を教わったシングハル博士、言語データ(コーパス)を整備し多くの優秀な弟子を輩出したマーカス博士にデジタル通信界の巨人ビダビ博士。著者は言う。
「彼らは、出身国も国籍もさまざまだが、共通の特徴がある。それは、数学的な基礎を確固として持っていることである。さらにその数学を使って、多くの実際的な問題を解決してきたということである。世界的な研究者の仕事と生活を紹介することによって、本物の学者とはどのような人たちなのかを読者に知ってほしい。彼らの共通点と卓越さを知り、彼らが成功した要因を理解して、数学の美しさを本当に知っている人たちの素晴らしい人生を感じ取ってほしい。」
目次
第1章 文字と言語、数字と情報
第2章 自然言語処理 70年の歴史
第3章 統計的言語モデル
第4章 単語分割 テキストを単語に区切る方法
第5章 隠れマルコフモデル 自然言語処理における核心的ツール
第6章 情報の量と働き
第7章 現代言語処理を拓いた イェリネック博士
第8章 簡潔の美 ブール代数と検索インデックス
第9章 巡回を最適化 グラフ理論とウェブページ収集
第10章 ページランク ウェブページを順位付けするグーグルのアルゴリズム
第11章 検索語句とウェブページをどう関連づけるか
第12章 有限オートマトンと動的計画法 地図とローカル検索の核心技術
第13章 アミット・シングハル グーグルのカラシニコフをデザインした男
第14章 余弦定理とニュース記事の分類
第15章 特異値分解ともう一つのテキスト分類
第16章 情報のフィンガープリント
第17章 暗号の数理 テレビドラマ「暗算」と公開鍵暗号
第18章 輝くもの必ずしも金ならず 検索エンジンの質を高める二つのアプローチ
第19章 数理モデルの重要性
第20章 卵は一つのかごに盛るな 最大エントロピー法
第21章 漢字入力の数理
第22章 自然言語処理の父マーカスとその優秀な弟子たち
第23章 ブルームフィルター 乱数と確率の巧妙な掛け合わせ
第24章 マルコフ連鎖の拡張 ベイジアンネットワーク
第25章 条件付き確率場と構文解析
第26章 デジタル通信界の巨人 ビタビ博士
第27章 神のアルゴリズム 期待値最大化アルゴリズム
第28章 ロジスティック回帰と検索広告
第29章 困難は分割せよ クラウドコンピューティング
第30章 人工ニューラルネットワーク 「大規模」で飛躍的に進化
題31章 ブロックチェーンと楕円曲線暗号 ビットコインを生み出した数理
第32章 ビッグデータの威力
第33章 量子暗号はなぜ絶対に破られないのか
第34章 数学の限界 ヒルベルト第10の問題と人工知能の限界
付録 計算の複雑さ
監訳者あとがき「深層学習(ディープラーニング)の進展と大規模言語モデルの時代」