2023.04.03

データサイエンスのデータってどこから来るの？ー社会調査の『基本』に立ち返る

記事：朝倉書店

「一部のデータから全体を推測する」ために必要な手続きがサンプリングです。

ランダム・サンプリングの確立と２冊の『社会調査の基本』

　「データの生成過程を知らずして、データから価値を抽出できません。調査はデータが生成される具体的な現場です」（『世論調査の真実』（鈴木督久著、127頁））とは、世論調査や市場調査などの調査実務に長年にわたって関わってきた方の著作中での発言です。そのうえで同書では調査現場を具体的に紹介しています。

　社会調査とは一般には、インタビューや参与観察なども含んだ幅の広い行為を含めますが、ここでは世論調査や視聴率調査などの量的なものを対象とします。ただ、生成過程を知る必要があるのはどのような調査でも同じです。

　さて、アンケートなどで回答者に意識や態度を聞き、その傾向を数字にまとめて社会全体の動向を推測するといった行為は以前からありました。それが戦後になって、ランダム・サンプリングによる標本抽出法の確立で、より精密な推測が可能となりました。合わせて個人面接を基本とする適切な質問の手法も改善されていきました。現在、見られる内閣・政党といった支持率の調査なども、こうした手法をもとにしています。

　こうした調査法の確立を踏まえて刊行されたテキストの一つが、『社会調査の基本』（杉山明子著、1984年、朝倉書店）です。好評を博し、累計販売数が１万部を超えました。その後、同書をもとに新たに編集・執筆されたのが同名の『社会調査の基本』（杉山明子編著、2011年、朝倉書店）です。

　杉山明子氏は、1984年当時はNHKの放送文化研究所の所属で、調査業務に従事していました。この研究所はNHKが発表する各種世論調査の実務を担っているほか、「日本人の意識調査」（1973年から5年ごと）を実施してきた、日本を代表する調査機関の一つです。この調査成果を踏まえた『現代日本人の意識構造』（第九版、2020年刊）を目にした方も多いことでしょう。

社会調査の基本とは？

　2011年版の『社会調査の基本』については、新しい知見や資料が多々盛り込まれました。この経緯については著者らによりまとめられています（「著者が語る社会調査テキスト」『社会と調査』NO.16、2016 年3 月号）。とはいえ、実は「ランダム・サンプリングと個人面接法」（2011年版、「序文」より）という「基本」そのものは、変えてはいません。1984年に引き続き、ランダム・サンプリングの大元となる乱数からしっかりと解説しています。

　現在ではウェブ調査をはじめとする新しい調査法が数多く見られ、この種の調査法は「もはや古いのでは」と感じられる方も多いと思います。実際、2011年版刊行前から、ランダム・サンプリングと個人面接法の実施数は減少傾向を示し、回収率の低下も再三指摘されていました。

　それでもなお2011年版を刊行する意義は、「調査の基本は変わらない」点につきます。変わったのは調査をめぐる環境であって、「誤差を減らす」という発想に立つ社会調査の基本は変わることはありません。ウェブ調査が席巻している昨今ですが、そこでのサンプルが全体を代表しているのかどうかは、未だ議論が続いていますし、何かしらの決着をつけることも難しいでしょう。

　ちなみに、十数年前に「社会調査士」という資格が生まれ、大学ではこの「ランダム・サンプリングと個人面接法」による調査法が多く講じられています。これも社会調査の基本は変わらない、という姿勢のひとつともいえます。

乱数をつくるのに最もわかりやすいのはサイコロを使うことです。通例は六面体ですが、10進法に合わせて20面体のものが使われることもあります。精度のよいものでないときちんとした乱数になりませんので、ご注意を。

基本から考える事例として：「無回答の分析」　

　「では、基本だけ学べば十分なのか？」というと、そうはいかないのは他の学問と同様です。状況に合わせた対応が常に求められます。２つの『社会調査の基本』では、そうした「基本」から基づいた具体的な対応の事例が豊富です。ここでは、「無回答の分析」（85～94頁）を少しご紹介します。ここも1984年版の記述をほぼいかした部分です。

　調査では、質問で選択肢を示されたとしても「わからない（DK＝don’t know）」と答えることが多々あります。通例、単にDK率として集計されます。しかし、これは「回答したくない質問や、解答ができないような難しい質問」（84頁）を用意した調査をする側の問題点であり、調査者が改善してくべき点でもあるとします。

　ここでは過去の実際の調査を具体的に検証しながら、以下のような「無回答」の特徴を指摘しています。

「日本人の食生活」のような日常にかかわるものは低く、戦争・防衛・平和などのテーマでは高くなる。
生活時間など実態調査より、「意識」を聞く場合で高くなる。
現在より過去のことを聞くと高い。
多肢選択より単一選択ではやや高い。
高年者層に無回答が多い。　等

いずれも「言われてみればそうだろう」と感じた方も少なくないのではないでしょうか。こうした当たり前ともいえることをきちんと踏まえて、調査票に役立てていくのも本書でいう「社会調査の基本」なのです。

　ところで、私は1984年版でこの一節を読んで、たいへん驚きました。ちょうどその頃に手にしていた質問紙の「空白」「特になし」等をみていて、これを単なる「なし」と処理すべきなのかどうか、と考えていた時だったからです。「空白ひとつゆるがせにはしない」という調査者の姿勢に感銘を受けました。

ページトップに戻る