1. じんぶん堂TOP
  2. 自然・科学
  3. グーグルで情報革新を担った著者が語る 『数学の美:情報を支える数理の世界』

グーグルで情報革新を担った著者が語る 『数学の美:情報を支える数理の世界』

記事:東京化学同人

イノベーションを生み出すのは驚くほど簡潔な数学である
イノベーションを生み出すのは驚くほど簡潔な数学である

“数学が魔法のように問題を解決するたびに感嘆する、その驚きを読者と分かち合いたいと思う”

 このように述べる著者の呉軍(ウー・ジュン)は、北京で生まれ、ジョンズ・ホプキンス大学でPh.D. を取得した俊英である。グーグルに入社し、ウェブ情報検索を皮切りに、日中韓三カ国のプロダクト(製品)部門を立ち上げ、グーグルの自然言語処理や自動応答システムの研究プロジェクトを主導した。アジア言語のコンピュータ処理における草分けの一人といえるだろう。

 その後、グーグルチャイナやテンセント副社長を歴任。本書は、彼がグーグルチャイナ時代に執筆した人気ブログがもとになっている。プロダクトの根底にある数学を紹介したこのブログは、中国の知識人を中心に熱烈なファンを集め、本書の原著は中国でベストセラーとなって版を重ねている。本書はその最新版だ。

呉 軍(ウー・ジュン、百度百科より)
呉 軍(ウー・ジュン、百度百科より)

本書の特徴の一つは、キャッチ―な題材を取上げ、その数学的な仕組みをわかりやすい筆致でひもとくところにある。数学の話題は専門的知識が必要で難しくなりがちだが、彼は数学の威力と魅力を実に巧みに書き切っている。

話題は、「自然言語処理」「人工知能」「ニューラルネットワーク」「深層学習」「音声認識」「機械翻訳」「ウェブ検索」「ブロックチェーン」「量子通信」…34話と豊富で、一つ一つが短く、読みやすい。

どの話題が面白いと感じるかは、読む人次第なのも魅力だ。本書の監訳者と訳者と編集者の間でも、イチ推しの章が分かれた。それでは、いくつかの章を選んで紹介しよう。

目次一覧は末尾にあるので、是非眺めてほしい。
目次一覧は末尾にあるので、是非眺めてほしい。

自然言語処理:その70年の歴史

 「自然言語処理」という言葉は、生成AIの登場とともに耳慣れた言葉になりつつある。けれども、言葉を機械で処理しようという「自然言語処理」研究の歴史は古く、70年ほど前までさかのぼる。

 当初は、言語学の伝統に則って文法(ルール)ベースのアプローチがとられた。しかしこのアプローチでは研究が足踏みしてしまい、実用化には至らなかった。現状の隆盛につながる契機となったのはアプローチの変更、すなわち統計的な手法を試みたことによる。

 70年にわたる研究の歴史をひもときながら、アプローチにより対立する研究者集団がそれぞれどんな歩みをみせたのかも人間臭く描き出し、「正否はさておき、自らの立ち位置を変えるということは、誰でも簡単にできることではないが…」と、科学史上よく起こることへの教訓も語っている。

正しいモデルは簡潔である

 「数理モデルは大変重要である。この重要性を説明するために、20067月、私がグーグルチャイナで行った検索の基本原理に関する社内研修では、30時間たらずのカリキュラムのうち2時間をまるまる数理モデルにあてた。また、2010年にテンセント社に転じてからも、はじめの社内研修で同様の内容を講義している。」 第19章では、天体モデルの変遷を例にとり、良いモデルの本質は何かを議論する。訳者によると、「著者が一貫して言いたいこと」をよく表している章とのこと。

漢字入力の試行錯誤の歴史

 せっかくなので、アジア言語ならではの漢字の話題も紹介しておこう。中国における漢字入力法の変遷に触れつつ、その数理を扱う章がある。中国では漢字の入力法が3度変遷したという。みながみな漢字を入力する際のキーボードのタッチ回数を減らそうとするあまり、入力がどんどん複雑になっていき、最終的にはタッチ回数は増えるけれどとてもシンプルな方法におちついたという。 

 この著者の手にかかると、考え方を切り替えて問題が解決される瞬間の気持ちの良い驚きがありありと体感できる。

ブルームフィルター

 もちろん、「隠れマルコフモデル」や「情報エントロピー」、「グラフ理論」といった数理そのものを扱う章も多い。そして、それらの数理や数学的ツールが、日常私たちがよく使う技術の根底にあることが語られる。たとえば、「ブルームフィルター」は「このメールアドレスはスパムアドレスか?」など、ある集合にその要素が属するか否かを識別する際に使う数学的ツールだ。では、どのように識別するか。乱数と確率を巧妙に使うやり方がわかりやすく説かれ、この問題をこのように鮮やかに解決したのか!と、ここでも気持ちの良い驚きが待っている。

世界的な開発者の思考法も紹介

 そしてもう一つ、本書の魅力は、著者が共に仕事をしてきた世界的な開発者についての語りだ。大学時代の恩師で統計的自然言語処理の父であるイエリネック博士、グーグルの上司でプロダクト開発の姿勢を教わったシングハル博士、言語データ(コーパス)を整備し多くの優秀な弟子を輩出したマーカス博士にデジタル通信界の巨人ビダビ博士。著者は言う。

 「彼らは、出身国も国籍もさまざまだが、共通の特徴がある。それは、数学的な基礎を確固として持っていることである。さらにその数学を使って、多くの実際的な問題を解決してきたということである。世界的な研究者の仕事と生活を紹介することによって、本物の学者とはどのような人たちなのかを読者に知ってほしい。彼らの共通点と卓越さを知り、彼らが成功した要因を理解して、数学の美しさを本当に知っている人たちの素晴らしい人生を感じ取ってほしい。」

イエリネック博士はIBMで活躍後、著者の母校であるジョンズ・ホプキンス大学に移った。自然言語処理に関するセンターを設立、3年で世界一の研究センターに育て上げた。監訳者の持橋大地教授は、このセンターで行われるイエリネックの名を冠するワークショップに参加している。書籍巻末に、最新の動向を補完した「深層学習の進展と大規模言語モデルの時代」を監訳者あとがきとして掲載。
イエリネック博士はIBMで活躍後、著者の母校であるジョンズ・ホプキンス大学に移った。自然言語処理に関するセンターを設立、3年で世界一の研究センターに育て上げた。監訳者の持橋大地教授は、このセンターで行われるイエリネックの名を冠するワークショップに参加している。書籍巻末に、最新の動向を補完した「深層学習の進展と大規模言語モデルの時代」を監訳者あとがきとして掲載。

目次

1章 文字と言語、数字と情報

2章 自然言語処理 70年の歴史

3章 統計的言語モデル

4章 単語分割 テキストを単語に区切る方法

5章 隠れマルコフモデル 自然言語処理における核心的ツール

6章 情報の量と働き

7章 現代言語処理を拓いた イェリネック博士

8章 簡潔の美 ブール代数と検索インデックス

9章 巡回を最適化 グラフ理論とウェブページ収集

10章 ページランク ウェブページを順位付けするグーグルのアルゴリズム

11章 検索語句とウェブページをどう関連づけるか

12章 有限オートマトンと動的計画法 地図とローカル検索の核心技術

13章 アミット・シングハル グーグルのカラシニコフをデザインした男

14章 余弦定理とニュース記事の分類

15章 特異値分解ともう一つのテキスト分類

16章 情報のフィンガープリント

17章 暗号の数理 テレビドラマ「暗算」と公開鍵暗号

18章 輝くもの必ずしも金ならず 検索エンジンの質を高める二つのアプローチ

19章 数理モデルの重要性

20章 卵は一つのかごに盛るな 最大エントロピー法

21章 漢字入力の数理

22章 自然言語処理の父マーカスとその優秀な弟子たち

23章 ブルームフィルター 乱数と確率の巧妙な掛け合わせ

24章 マルコフ連鎖の拡張 ベイジアンネットワーク

25章 条件付き確率場と構文解析

26章 デジタル通信界の巨人 ビタビ博士

27章 神のアルゴリズム 期待値最大化アルゴリズム

28章 ロジスティック回帰と検索広告

29章 困難は分割せよ クラウドコンピューティング

30章 人工ニューラルネットワーク 「大規模」で飛躍的に進化

31章 ブロックチェーンと楕円曲線暗号 ビットコインを生み出した数理

32章 ビッグデータの威力

33章 量子暗号はなぜ絶対に破られないのか

34章 数学の限界 ヒルベルト第10の問題と人工知能の限界

付録 計算の複雑さ

 

監訳者あとがき「深層学習(ディープラーニング)の進展と大規模言語モデルの時代」

 

ページトップに戻る

じんぶん堂は、「人文書」の魅力を伝える
出版社と朝日新聞社の共同プロジェクトです。
「じんぶん堂」とは 加盟社一覧へ

じんぶん堂とは? 好書好日