2020.05.14

AIのブラックボックス問題とは何か　『異なる声に耳を澄ませる』

記事：白水社

『知のフィールドガイド　異なる声に耳を澄ませる』（白水社）

人工知能をめぐる技術的課題

　顔認証システムは、日本でも空港や店舗などで導入されつつある。一方で顔認証技術をはじめとする人工知能技術を用いたシステムの実用化には、いくつかの懸念も指摘されている。技術的な課題を見ていくにあたって、まずは現在の人工知能技術の仕組みを概説しよう。

　近年、画像認識技術の精度が上がったのは、人工知能技術の中でも深層学習（ディープラーニング）と呼ばれる新たな技術が進展したことが大きい。深層学習はパターン認識、つまりデータの塊を分類、判別する作業が得意だ。その学習のために大量のデータ（ビッグデータ）を必要とする。大量の画像から学習して、例えば「猫」の特徴を抽出することで、初めて見る画像であってもそれが「猫」か「猫ではないか」を判別できるようになる。

　今までの技術では「猫」とは「三角形の耳がある」や「ヒゲがある」などの特徴を人間が分類して記述していた。深層学習では、学習データから自動的に機械が特徴を抽出して分類するため、人間が言語化できない「直観」や「暗黙知」も機械が自動的に習得できるのでは、と期待されている。しかし、機械は学習データの関連付けを行っているだけなので、猫とは何かという「意味」を理解しているわけではないことに注意が必要である。

　また機械自らが判別ルールを作るため、人間には学習の方向性や内容がコントロールできないという課題がある。人間がルールを作るのであれば、「三角形の耳があるから猫と判断した」となど判別理由を説明できる。しかし深層学習では、何故ある画像を猫と判断するのかがモデルが複雑すぎて説明できない。これがいわゆる「ブラックボックス問題」だ。機械の判断によって問題が起きたとき、ブラックボックスであると理由が説明できず、機械をどのように改良してよいのかもわからない。

　今後、医療における診断支援、車の運転支援、進学や就職など人生選択のアドバイスなど、様々な場面で意思決定支援技術が使われるようになると予想される。支援してくれるのが人間であれば、無理やりにでもその理由を説明してくれるだろうが、機械の判断理由は前述のように不透明になる可能性がある。それでも、何か問題が起きた場合には、最終的な責任は意思決定をした人間が取らなければならない。もしあなたが、機械が下した判断の責任を取る立場に置かれたとき、その機械を使いたいと思うだろうか。だからこそ、何か問題が起きたときの責任の所在はどこにあるのか、保険などで対応ができるのか、など技術を取り巻く制度的な仕組みの構築も必要となってくるのである。

人工知能をめぐる社会的課題

　深層学習をめぐるもう一つの課題として、学習データの偏りも問題となる。猫の一品種「エジプシャンマウ」の学習データが少なかったために、見かけが似ている別品種の「オシキャット」だと誤認識するくらいだったらご愛敬で済むかもしれない。しかし、人間を誤認識したとなったら問題となるだろう。特に、認識したうえで、何かの意思決定（雇用、逮捕、お金を貸すなど）を行う場合は、その社会的な影響は大きい。例えば、アメリカで開発されるシステムに使う学習データは、どうしてもアングロサクソン系の男女の画像が多くなる。そのため、人種という観点からすると、アフリカ系、しかも女性の学習データが特に少なく、誤認識が多くなることが指摘されている。無実の人が、誤って犯罪者と特定され逮捕されてはたまらない。しかし、解決のために不足しているデータを増やせば良いという単純な話でもない。そのためのデータはどこから取ってくるのか、プライバシーや個人情報の問題が立ちはだかる。

　さらに近年では、データをもとにした「特定」だけではなく、「予測」についても問題視されている。ネットショップで買い物をすると、「Aという商品を購入する人はBという商品も購入する可能性が高い」など、ビッグデータをもとにした予測が裏で行われている。それをもとに、「この商品を買った人へのおすすめ」が画面に表示される。人々のデータをもとに行動や選好を予測することを「プロファイリング」という。

　極端な事例としては、顔画像データをプロファイリングに使うことも、データがあればできてしまう。二〇一六年に中国の研究者が、犯罪者と非犯罪者の身分証明書写真を学習させることで、「犯罪を起こしそうな人の顔」を高確率で識別できたと公表した。イタリアの犯罪学者ロンブローゾは、一八七〇年代に犯罪者には生まれつきの特徴があるとする「生来性犯罪者説」を提唱したが、現在彼の理論の多くは科学的に否定されている。だが万が一、「予防」という観点で、顔データのみを参照して、犯罪者予備軍として取り締まりが起きてしまえば、それはSFで描かれるディストピアのような恐ろしい社会である。また顔を意思決定の判断基準に用いることは、人種差別や年齢差別をもたらすという観点からも社会的に問題視されている。このような観点からアメリカでは就職活動をする際に、日本のように顔写真や性別を書類に要求されることはない。

　一方、プロファイリングされる側からすると、意思決定の結果のみが知らされる場合や、誤りがあった場合に責任を取る人や組織が明確な場合には、人による判断か機械による判断かは、それほどの違いはないように思えるかもしれない。しかし、機械によるプロファイリングの恐ろしいところは、組織を超えて使われて固定化する可能性があるところだ。慶應義塾大学の憲法学者である山本龍彦氏は、これを「バーチャル・スラム」として問題視する。一度悪いレッテルを張られてしまうと、バーチャル空間ではそのレッテルを払しょくすることが難しい。機械は忘れてはくれず、その評価が一生ついて回ることになる。しかもそのレッテルを張られたとする判断理由が「ブラックボックス」であると訂正も難しい。つまり、一度悪い評価を付けられてしまうと、同じシステムを利用している組織では、理由もわからずに低評価を付けられ続けることになる。

技術で解決──説明可能人工知能の開発

　今まで提示した課題に対して、「技術によって生じる問題は技術で解決する」アプローチがある。例えばデータの偏りによって生じる人種差別問題に関しては、「どこにも存在しない人」を作り上げる技術がある。This person does not existというウェブサイトにアクセスすると、敵対的生成ネットワーク（GAN）と呼ばれる技術を用いて、「この世には存在しない人」の顔写真が生成される。「実在しない顔」には著作権やプライバシー問題が生じない（ただし「実在しない」ことの証明は不可能であり、悪魔の証明であることは気をつけなくてはならない）。

　学習の中身がブラックボックス化する問題に対しては、何故そのような判断をしたのかを説明する、経過途中を示せるという「説明可能人工知能」や「解釈可能人工知能」という研究領域が推進されている。ただし、説明可能という言葉が意味するところは広く、様々なアプローチが提唱されている。現在、有力な説明方法は、機械が予測や判別を行うときに、対象とする画像や音声データのどの部分に重点を置いているのか根拠を示す方法だ。例えば、ある画像が「何をしているシーンか」という問いかけに対して、答えだけではなくその理由まで示す技術がある。次の図は、「このスポーツは何か」という問いに対して、「答え：野球」、「理由：プレイヤーがバットを握っているため」として画像のバット部分をハイライトして説明している。

理由を説明するシステム例。Attentive Explanations: Justifying Decisions and Pointing to the Evidence, https://arxiv.org/pdf/1612.04757v1.pdf

　理由を示す技術は、うまく判別ができない悪いモデルを修正するためにも有効である。例えば、次の図が示すように、あるモデルでは左側の「ハスキー犬」を「狼」と誤って判別してしまう。

図3　狼と判定されたハスキー犬の写真（左）と、何故狼と判定されたのかの説明画像（右）。https://arxiv.org/pdf/1602.04938.pdf

　「狼」と判別する理由を示しているのが右側の図である。ここでは背景の白い部分がその根拠として示されている。ここから、今まで学習させたデータのうち、「狼」の写真は背景が雪であることが多かったため、「雪のある写真」は「狼」と判定していたことが分かった。そこで、雪の中ではない「狼」の写真なども学習データに加えることによって、モデルを修正することができた。

インタフェースで解決──人と機械の協同の仕組み

　一方、技術だけで問題が解決できるわけではない。機械が説明するだけでは問題解決に結びつかないこともあるからだ。重要なのは、問題があったときにその責任を誰がとるのか、人と機械の役割や責任の分担の在り方が信頼できる仕組みで作られているかという、人と機械の相互作用のデザイン、つまりインタフェースの観点である。

　よく考えてみると、人間も自分の行動理由や判断を明確に、万人が納得できるように説明できるわけではない。例えば、人間による人事採用の基準はどのくらい公平だろうか。成績や自分と同じ出身校という事実、あるいは「何か引っかかった」などの直観と経験で採用の足切りをする場合、人間による採用基準のほうがよほど曖昧かつ「ブラックボックス」である。あるいは数千もの応募から、面接する数人を明日までに絞り込んでくれといわれたら、人間よりは機械の方がはるかに情報の細部まで読み込むことができるだろう。機械だからこそ偏見なく判断ができる可能性もある。

　このように、人と機械は判断基準や処理能力が違うため、協同することによって見落としを減らすこともできる。囲碁や将棋などのゲームでも、一番強いのは人と機械が協同した場合だといわれている。個人の有限な経験や偏見によって見落とされてしまう観点を、機械だからこそ網羅的に拾い上げることも可能になる。

　そこで人と機械の両方の強みを生かすインタフェースを作り上げることが大事となる。技術の移行期において重要なのは、機械を頼ってもいいが、最終的な判断の基準や責任はどこにあるのか、誰にあるのかを明確化することだ。機械の基準に落とし込めることは落とし込み、落とし込めない基準は最終的に人間の経験と勘、創造性などを発揮して見極めるしかない。

　ただし、基準がある程度数値化されるということは、そのルールが明らかにされるとゲームのように攻略することも可能となる。例えば、顔認証で採用や人事を決めるシステムができた場合、「機械に採用されやすいのはこのような顔だ」と分かれば、そのような顔を「作る」ことができる。現在は、顔を加工するアプリなども簡単に使える。あるいは、監視カメラなどで検知されないような特殊な化粧法や、敵対的サンプル（Adversarial Samples）と呼ばれる検知を妨害する技術なども開発されている。ほかにもゲームの「バグ」をみつけるとショートカットが可能なように、「常識」のない人工知能には、人間であれば絶対に通用しないけれど機械だからこそ通用するような、思いがけない攻略法があるかもしれない。だからこそ、見落とし防止や悪用を防ぐために、人と機械の協同作業が不可欠となる。

（『知のフィールドガイド　異なる声に耳を澄ませる』所収「鏡としての人工知能」より）