2025.03.10

グーグルで情報革新を担った著者が語る『数学の美：情報を支える数理の世界』

記事：東京化学同人

イノベーションを生み出すのは驚くほど簡潔な数学である

“数学が魔法のように問題を解決するたびに感嘆する、その驚きを読者と分かち合いたいと思う”

　このように述べる著者の呉軍（ウー・ジュン）は、北京で生まれ、ジョンズ・ホプキンス大学でPh.D. を取得した俊英である。グーグルに入社し、ウェブ情報検索を皮切りに、日中韓三カ国のプロダクト（製品）部門を立ち上げ、グーグルの自然言語処理や自動応答システムの研究プロジェクトを主導した。アジア言語のコンピュータ処理における草分けの一人といえるだろう。

　その後、グーグルチャイナやテンセント副社長を歴任。本書は、彼がグーグルチャイナ時代に執筆した人気ブログがもとになっている。プロダクトの根底にある数学を紹介したこのブログは、中国の知識人を中心に熱烈なファンを集め、本書の原著は中国でベストセラーとなって版を重ねている。本書はその最新版だ。

本書の特徴の一つは、キャッチ―な題材を取上げ、その数学的な仕組みをわかりやすい筆致でひもとくところにある。数学の話題は専門的知識が必要で難しくなりがちだが、彼は数学の威力と魅力を実に巧みに書き切っている。

話題は、「自然言語処理」「人工知能」「ニューラルネットワーク」「深層学習」「音声認識」「機械翻訳」「ウェブ検索」「ブロックチェーン」「量子通信」…34話と豊富で、一つ一つが短く、読みやすい。

どの話題が面白いと感じるかは、読む人次第なのも魅力だ。本書の監訳者と訳者と編集者の間でも、イチ推しの章が分かれた。それでは、いくつかの章を選んで紹介しよう。

自然言語処理：その70年の歴史

　「自然言語処理」という言葉は、生成AIの登場とともに耳慣れた言葉になりつつある。けれども、言葉を機械で処理しようという「自然言語処理」研究の歴史は古く、70年ほど前までさかのぼる。

　当初は、言語学の伝統に則って文法（ルール）ベースのアプローチがとられた。しかしこのアプローチでは研究が足踏みしてしまい、実用化には至らなかった。現状の隆盛につながる契機となったのはアプローチの変更、すなわち統計的な手法を試みたことによる。

　70年にわたる研究の歴史をひもときながら、アプローチにより対立する研究者集団がそれぞれどんな歩みをみせたのかも人間臭く描き出し、「正否はさておき、自らの立ち位置を変えるということは、誰でも簡単にできることではないが…」と、科学史上よく起こることへの教訓も語っている。

正しいモデルは簡潔である

　「数理モデルは大変重要である。この重要性を説明するために、2006年7月、私がグーグルチャイナで行った検索の基本原理に関する社内研修では、30時間たらずのカリキュラムのうち2時間をまるまる数理モデルにあてた。また、2010年にテンセント社に転じてからも、はじめの社内研修で同様の内容を講義している。」　第19章では、天体モデルの変遷を例にとり、良いモデルの本質は何かを議論する。訳者によると、「著者が一貫して言いたいこと」をよく表している章とのこと。

漢字入力の試行錯誤の歴史

　せっかくなので、アジア言語ならではの漢字の話題も紹介しておこう。中国における漢字入力法の変遷に触れつつ、その数理を扱う章がある。中国では漢字の入力法が3度変遷したという。みながみな漢字を入力する際のキーボードのタッチ回数を減らそうとするあまり、入力がどんどん複雑になっていき、最終的にはタッチ回数は増えるけれどとてもシンプルな方法におちついたという。　

　この著者の手にかかると、考え方を切り替えて問題が解決される瞬間の気持ちの良い驚きがありありと体感できる。

ブルームフィルター

　もちろん、「隠れマルコフモデル」や「情報エントロピー」、「グラフ理論」といった数理そのものを扱う章も多い。そして、それらの数理や数学的ツールが、日常私たちがよく使う技術の根底にあることが語られる。たとえば、「ブルームフィルター」は「このメールアドレスはスパムアドレスか？」など、ある集合にその要素が属するか否かを識別する際に使う数学的ツールだ。では、どのように識別するか。乱数と確率を巧妙に使うやり方がわかりやすく説かれ、この問題をこのように鮮やかに解決したのか！と、ここでも気持ちの良い驚きが待っている。

世界的な開発者の思考法も紹介

　そしてもう一つ、本書の魅力は、著者が共に仕事をしてきた世界的な開発者についての語りだ。大学時代の恩師で統計的自然言語処理の父であるイエリネック博士、グーグルの上司でプロダクト開発の姿勢を教わったシングハル博士、言語データ（コーパス）を整備し多くの優秀な弟子を輩出したマーカス博士にデジタル通信界の巨人ビダビ博士。著者は言う。

　「彼らは、出身国も国籍もさまざまだが、共通の特徴がある。それは、数学的な基礎を確固として持っていることである。さらにその数学を使って、多くの実際的な問題を解決してきたということである。世界的な研究者の仕事と生活を紹介することによって、本物の学者とはどのような人たちなのかを読者に知ってほしい。彼らの共通点と卓越さを知り、彼らが成功した要因を理解して、数学の美しさを本当に知っている人たちの素晴らしい人生を感じ取ってほしい。」

イエリネック博士はIBMで活躍後、著者の母校であるジョンズ・ホプキンス大学に移った。自然言語処理に関するセンターを設立、3年で世界一の研究センターに育て上げた。監訳者の持橋大地教授は、このセンターで行われるイエリネックの名を冠するワークショップに参加している。書籍巻末に、最新の動向を補完した「深層学習の進展と大規模言語モデルの時代」を監訳者あとがきとして掲載。

第1章　文字と言語、数字と情報

第2章　自然言語処理　70年の歴史

第3章　統計的言語モデル

第4章　単語分割　テキストを単語に区切る方法

第5章　隠れマルコフモデル　自然言語処理における核心的ツール

第6章　情報の量と働き

第7章　現代言語処理を拓いたイェリネック博士

第8章　簡潔の美　ブール代数と検索インデックス

第9章　巡回を最適化　グラフ理論とウェブページ収集

第10章　ページランク　ウェブページを順位付けするグーグルのアルゴリズム

第11章　検索語句とウェブページをどう関連づけるか

第12章　有限オートマトンと動的計画法　地図とローカル検索の核心技術

第13章　アミット・シングハル　グーグルのカラシニコフをデザインした男

第14章　余弦定理とニュース記事の分類

第15章　特異値分解ともう一つのテキスト分類

第16章　情報のフィンガープリント

第17章　暗号の数理　テレビドラマ「暗算」と公開鍵暗号

第18章　輝くもの必ずしも金ならず　検索エンジンの質を高める二つのアプローチ

第19章　数理モデルの重要性

第20章　卵は一つのかごに盛るな　最大エントロピー法

第21章　漢字入力の数理

第22章　自然言語処理の父マーカスとその優秀な弟子たち

第23章　ブルームフィルター　乱数と確率の巧妙な掛け合わせ

第24章　マルコフ連鎖の拡張　ベイジアンネットワーク

第25章　条件付き確率場と構文解析

第26章　デジタル通信界の巨人ビタビ博士

第27章　神のアルゴリズム　期待値最大化アルゴリズム

第28章　ロジスティック回帰と検索広告

第29章　困難は分割せよ　クラウドコンピューティング

第30章　人工ニューラルネットワーク　「大規模」で飛躍的に進化

題31章　ブロックチェーンと楕円曲線暗号　ビットコインを生み出した数理

第32章　ビッグデータの威力

第33章　量子暗号はなぜ絶対に破られないのか

第34章　数学の限界　ヒルベルト第10の問題と人工知能の限界

付録　計算の複雑さ

監訳者あとがき「深層学習（ディープラーニング）の進展と大規模言語モデルの時代」

この本を書いた人

呉軍（Wu、 Jun）(ウー・ジュン)

1967年北京生まれ。研究者および投資家。人工知能や音声認識、インターネット検索を専門とする。清華大学（中国）を卒業後、ジョンズ・ホプキンス大学（アメリカ）にてPh.D. を取得。グーグル社の上級研究員、テンセント社の副社長を経て、現在AminoCapital（豊元資本）の創業パートナーおよびアドバイザー、上海交通大学客員教授、ジョンズ・ホプキンス大学工学部のボードメンバーなどを務める。グーグル在籍時に、ウェブ検索におけるスパム対策に携わり、日中韓三カ国語のプロダクト部門を設立。これらの言語による検索アルゴリズムを設計するなど、グーグルの自然言語処理や自動応答システムの研究プロジェクトを主導した（これらの内容については本書の中で紹介されている）。テンセントでは、検索や検索広告、ストリートマッププロジェクトを担当した。また、投資家として、シリコンバレーと中国のハイテク企業150社への投資に成功している。著書も『数学之美（本書）』、『浪潮之巅』、『智能時代』、『大学之路』、『文明之光』、『全球科技通史』など多数あり、これらにより中国において文津図書賞、中国好書賞、中華優秀出版物図書大賞などを受賞している。

この本を訳した人

持橋大地 (もちはし・だいち) 統計数理研究所統計基盤数理研究系教授/国立国語研究所次世代言語科学研究センター教授（兼務）

1993年東京大学文科三類に入学、コンピュータサイエンスに興味を持ち、2005年奈良先端科学技術大学院大学情報科学研究科を修了。博士（理学）。ATR音声言語コミュニケーション研究所、NTTコミュニケーション科学基礎研究所研究員を経て、2011年より統計数理研究所。専門は自然言語処理（統計的言語モデル）およびベイズ統計的機械学習。著書『ガウス過程と機械学習』（大羽成征との共著、講談社）のほか、『パターン認識と機械学習』（丸善出版）や『統計的機械学習の基礎』（共立出版）といった機械学習の教科書の翻訳にも参加している。

井上朋也 (いのうえ・ともや)

1997年東京大学大学院理学系研究科化学専攻修了。博士（理学）。専門は触媒化学および反応工学。化学企業、公的研究機関を経て、現在、中国系化学企業において研究開発・産学連携に携わる。中国語は社会人になってから学びはじめた。

ページトップに戻る