Tips/Facts

調査研究による知見ですが…

TF-20220930 「2022院選予想議席の評価」確定版

■2022院選の議席予想記事のうち、朝日・毎日・産経・読売・日経の5社について予測精度を分析してみました。開示したレポートの引用はご自由ですが、手作業部分もありまだ誤記が残っている可能性をご留意ください。ファイル(PDF: 828kB)は「Slide/Repts. の YORONresearch reports」に開示されています。タイトルと見出しは以下のように構成しました。この下に表示されている閲覧枠でも内容確認・ダウンロードができます。8/31の暫定版開示後に修正した個所:①毎日新聞の埼玉選挙区・上田(無所属)の判定符号をAからBに変更、②産経新聞中盤調査の神奈川選挙区・松沢(維新)の判定符号をBからAに変更、③2氏の判定符号変更にともない図表6-1と図表9と選挙区詳報一覧表を修正、④選挙区詳報一覧表の各社予想順位が外れている個所の色分け修正および産経新聞の大分選挙区・山下(共産)の情勢表現「苦戦」を「苦しい」に修正、⑤図表10の調査方法・見出し欄を修正し図表1にも一部反映、⑥2頁の《評価方法》のうち毎日の「終盤」情勢を「中盤」情勢に、「両者」を「両社」に修正、⑦2頁左段のTweet枠の位置を調整し「一方」で改行追加、なお本文は不変〕

2022年参議院選挙の予測報道と選挙結果の比較検証 YORONresearch 松田映二 (20220930)

議席予測は各社成功したが 優劣くっきり 朝日と読売が順位予想も高精度 朝日 情勢判断優秀

安倍元首相 応援演説中に銃殺される 議席予想の精度分析への影響は軽微か

朝日のネット調査 衆院選に続き高精度 データ共有の読売は日経を凌ぐ精度 毎日方法変更

読売 調査データの解釈・補正に成功か 1位予想的中数 読売43でトップ 日経・産経38

読売 自民候補の1・2位予想も正確 順位相関係数でみると朝日と読売が高精度

読売 接戦62 他社の3倍 朝日 自民の当落判別 優れる

公明・共産の判定にも違い 当選定数が大きい選挙区での判定力

岩手選挙区で情勢分かれる 調査結果と取材判断どちらの影響か

読売と日経で予想順位に差 協力して調査 同じデータ利用だが

読売・日経の情勢判断 得票率差20%超でもC判定

編集後記 「各図表の補足説明」と「分析中の雑感」などの記録

■下のGoogleドライブとのリンク画面でも閲覧・ダウンロードができます。

20220930YRreptV2.pdf

TF-20220328 「2021年衆院選予想議席の評価」

■2021年衆院選の議席予想記事のうち、読売・日経・朝日・毎日の4社について予測精度を分析してみました。開示したレポートの引用はご自由ですが、手作業部分が多く誤記が残っている可能性をご留意ください(ご指摘を受けて訂正等の検討をさせていただきます)。ファイル(PDF: 934kB)は「Slide/Repts. の YORONresearch reports」に開示されています。タイトルと見出しは以下のように構成しました。この下に表示されている閲覧枠でも内容確認・ダウンロードができます。

〔ファイル修正履歴:20220328.14:03=p2.左段上から5-7行訂正 / 20220329.08:08=図表1の毎日・全体議席数の体裁修正(これをもって正式版とする)〕

■2021年衆議院選挙の予測報道と選挙結果の比較検証 YORONresearch 松田映二 (20220328)

読売・日経は予測失敗:見出し・選挙区詳報の紙面展開は自民低調・立民堅調

調査方法の変化が予測精度に影響か:読売・日経は自動音声を採用 朝日はネット調査を採用

選挙区 自民・立民の1位予想数で大差:読売・日経の立民1位予想 約90人 朝日・毎日の1.5倍

読売 選挙区情勢で候補者の3割触れず:朝日はネット調査で低順位まで正確に予想

読売・日経 1位予想精度に地域差:毎日は1位予想精度に地域差なし

毎日 1社のみ外し急増し13 前回は5:朝日の1社のみ外し 今回10で前回13

読売 接戦予想候補242:毎日124の約2倍

立民A判定の外し目立つ:読売・日経 立民C判定の当選率3割

毎日 E判定で当選7人:判定ミスか 情勢表現が他社と違うか

選挙区 情勢表現 Windexで適正か検討:朝日のABE判定はWindex順通り 読売・日経はAB混在

各社とも 勝機残るD判定で適正率低い:やや勝勢のB判定の適正率 毎日のみ5割超

■下のGoogleドライブとのリンク画面でも閲覧・ダウンロードができます。

20220328YRreptV1.pdf

TF-20211118 「選挙予測の精度評価について」

「代表性」のある調査統計を用いて推計得票率が計算できた場合は、推計得票率を(誤差を伴う)確率密度分布と見立てて、各分布の重なり具合から当選確率を計算できる。AB両候補者の推計得票率の差が20%ならば(A:60%-B:40%)、当選確率は1に近づくが誤差幅が大きければ負ける可能性も残した予測となる。この当選確率を党派別に積算したものが予想議席数になる。各選挙区ごとに勝ちそうな候補者を見立てて1ずつ積み上げる方式も見受けられるが、これでは統計的とは言えない。ただ、代表性の無い計画標本を用いていたり、代表性のある計画標本であっても超低回収率であるような「点推定が信頼できない調査」が主流となった現在において、補正(Adjustment)が的確でなければ推計得票率を基準とした当選確率の算出は失敗を孕む危険性がある。調査精度が悪いのならば、それに対応した推計式の改変が求められる。

■調査結果に対する信頼の度合いは、「報道」にも影響を及ぼす。調査結果よりは取材結果を重く見た判定や予想している議席数をぼかした記事、あるいは両極端のどちらも実現しうる表現が用いられていないだろうか。「報道」側の都合はともかく、「調査」側が信頼される調査統計を提供できれば解消できる問題である(実際には難しいのだが…そこは調査現場の担当者の努力に期待したい)。

〔図の説明〕候補者Aが候補者Bに勝つ確率は、両候補者の推計得票率の差の分布により計算できる。候補者Aの推計得票率が55%で候補者Bが45%ならば、その差は10%だから掲示スライド右下のグラフの横軸が10となる。描画されている曲線は推計得票率の誤差幅により3タイプに分かれる。候補者Aの誤差幅が6%でBが8%ならば①の曲線の式に10を代入して、候補者AがBに勝つ確率は 0.9234 となる。①は当落分析のための標本サイズ名挙数=候補者名を挙げた数)が500程度、②は250程度、③は200程度を想定したものである(誤差幅は標本サイズの大きさにより変わる)。ただし、誤差幅は単純無作為抽出のものの√2倍を見込んだ。なお、AとBで誤差幅の数値が異なるのは誤差式に加えて推計式の影響を見込んだためである。固定電話を対象に調査した前回衆院選の各選挙区での名挙数は150~200程度だったが、今回の衆院選では調査員を用いない調査が主流となったためにコスト削減により名挙数は読売・日経で平均518、毎日で421、朝日で734と急増している(前回の3~4倍)。もし今回選挙で正当な調査結果が得られていれば、当選確率は①の曲線を用いて見込み計算できる。

■報道各社の予想議席(比較表)がどの程度の精度だったかを確認するために、小選挙区においても各紙の記事表現を抜粋して比較分析する予定でしたが、別件の依頼/懸案事項への対応のため年内(12月末日まで)ではなく年度内(2022年3月末日まで)公表へと延期します。ただ、現段階の評価ポイントを提示させていただきます。

「接戦」状況が予測精度に影響を及ぼしたかーー読売新聞社の選挙サイトからデータスクレイプして(前回選挙でも利用させていただきました。利用しやすい形式であり、感謝いたします)、候補者や得票率の一覧表を作成しました(ただ、記事表現の抜粋・整理は「紙」面からの手作業ですのでこの後かなり時間がかかります)。1位と2位の得票率の差が「0%以上5%未満」は62選挙区、5%以上10%未満」が54、10%以上15%未満」が32で「0%以上15%未満」の間に148選挙区が該当しています。前回衆院選では「0%以上5%未満」は49、「5%以上10%未満」が56、「10%以上15%未満」が45で「0%以上15%未満」の間に150選挙区が該当していました。野党共闘の影響で得票率差5%未満の選挙区数が増えたことが分かります。ただ、前回選挙に比べて「接戦」が格段に増えたわけでもなさそうです。

調査方法が予測精度に影響を及ぼしたかーー前回衆院選では名挙数150~200程度の少数のデータでそこそこの予測精度でしたが、今回の衆院選での名挙数は読売・日経で平均518、毎日で421、朝日で734と前回の3~4倍にも増加したにもかかわらず(通常は標本サイズが大きくなれば調査精度が良くなる)、各予想紙面の「見出し」が外れた印象を持たれた新聞社が多かったようです。読売・日経の両新聞社は協力して調査しており、固定・携帯電話に対して調査員と自動音声で調査、毎日新聞社は固定・携帯電話ともに自動音声で接触して、携帯電話の場合はスマホの画面で回答してもらえるようにショートメッセージを送る方式、朝日新聞社は比例区の予測のために固定・携帯電話に対して調査員が調査して、選挙区の予測のために4つのインターネット調査会社の登録モニターを利用して調査しました。全体の議席予想の精度はもとより、個々の選挙区の当落判定の精度も確認することで各調査手法の癖が見えてくるでしょう。

推計方法が予測精度に影響を及ぼしたかーーもし調査方法が変わったにもかかわらず従来と同じ方法で予測(推計得票率を基準として当選確率を計算)したならば、名挙数の増大(3~4倍)により誤差幅は最大1/2に縮小されてしまいます。推計得票率の予測(点推定)がうまくいかなければ、誤差幅が狭くなった分だけ当選確率にエッジが付きその積算により予想議席のズレが拡大されるでしょう。そうしたことを見通し、推計得票率の確率密度分布の利用を控えて、候補者の強さを各階層ごとに見極め(1つのデータの中で複数の選挙予測を繰り返す)当落判別により当選確率を算出する方式も有効です。各階層とは性・年代のようなデモグラフィックに限らず選挙情勢を予見させる有権者の行動・態度も含まれます。私見ですがネット調査において候補者の強さを見極める指標の一つとして初頭効果(私は初印効果と言いたい)の利用も有効だと考えています(インテージさんの社内セミナーでも、ヒトの認知能力の影響を受けた「回答の偏り」を取り除くのではなく利用する話をさせていただきました)。

■紙面表現が予測精度の印象に影響を及ぼしたかーー予想議席数を紙面で明示した朝日新聞社の事例で説明しましょう。自民党(261議席を獲得)の予想議席数 251-279 と掲示しましたが 265±14 (251-265-279)と予想の中心値を明示していれば、読者に予想的中と思わせる効果が高かったでしょう。主見出しは「自民 過半数確保の勢い」で記事では「自民党は公示前の276議席より減る公算が大きいものの、単独で過半数(233議席)を大きく上回る勢い」「接戦となっている74の選挙区の勝敗次第では、今回もこれを獲得できる」(注:「これ」とは「絶対安定多数:261議席」を指す)となっています。主見出しをリード文にある表現のまま「自民 過半数大きく上回る」としていれば的中の印象が強くなったでしょう。欲を言えば、予想の中心値が265と絶対安定多数を4議席上回っているわけですから、「自民 絶対安定多数確保か」という予測数値を素直に受け取った主見出しであってもよかったはずです。つまり「報道」側の立場と「調査」側の立場があり、調査結果をどう表現するかで読者が受ける印象は大きく変わるのです。今回の調査報道では、読売、日経、毎日新聞社と共同通信社が10月21日付紙面で自民が過半数を確保するかどうかの紙面展開をした5日後の26日に朝日新聞社が報道しています(ネットでは25日に速報)。先行報道の影響を受けた可能性があります。朝日新聞デジタルでは10月25日18時00分のタイムスタンプで予想議席が速報され(紙面は26日付)ましたが、そのニュースはすぐに目立たない形(見出し掲示がサイトトップではなく探さないと見られない)になっていました(幸いなことにヤフーニュースではしばらく目立つところに掲示されていました)。以上が朝日新聞社の事例をもとにした考察です。他社においても予想議席の紙面表現について苦慮されたことが想像できます。

TF-20211103 「情勢変化か調査不良か」

■3日前(10/31)に投開票された第49回衆院選の議席予想報道が、有権者の関心を「自民 単独 過半数(233)」の攻防へと導いたが、結果は「自民 単独 絶対安定多数(261)」であった。自民苦戦の情勢報道がなされた後に党本部と候補者自身のテコ入れにより苦境を脱したという事後報道がなされている。つまり序盤と終盤で「情勢変化」が起きたという見立てである。それは違うのではないか。最初から自民は劣勢なんかではなく、「調査不良」によって情勢把握を誤ってしまったと見立てられる超低回収率の電話調査を用いたところは、有権者の投票意向を代表しない回答を補正しきれずに(補正しないで)予想を外した。携帯電話番号も調査対象にするなど、カバレッジ(Coverage)を高くしてもノンレスポンス(Nonresponse)が大きければ「代表性」を損なう、そんな調査学の教材として活用されるであろう。唯一、ネット調査を用いて予測した朝日新聞社は「維新」と「無所属」以外の議席を的中させている。アクセスパネルを対象にしたネット調査では、カバレッジやノンレスポンスの評価ができなくても、回答傾向をモデル化して補正(Adjustment)により「代表性」を見出す道もある。この選挙が、新たな調査史の扉を開く。(各社議席予想の比較表はこの下のほうに掲示。ダウンロード可)

〔図の説明〕調査の精度は調査過程で発生する様々な誤差を総合的に評価して見極める必要がある。これが欧米を中心とした調査学で教授されるTSE(Total Survey Error)の概念である。日本の学術方面でもようやく総合的な調査誤差を気にかけるようになっている。社会調査協会のサイトに掲示されている『オピニオン』で佐藤嘉倫先生が「Web調査の有効活用のために」と題して論じている。ここでは、総調査誤差=非観察誤差+観察誤差というTourangeauらが定義した概念でTSEを取り上げている(これが正統でも正当でもない。TSEの概念は数多くある。なお、総調査誤差と観察誤差という訳語には異論がある)。私は、「代表性」と「測定」に大別したGrovesの概念(上図)のほうが調査の本質をとらえているし、調査精度向上を工夫するうえで有意義だ、と考えている。

2021衆院選各社予想v2.pdf

■上掲した比較表の内容(意味)を読みとるにあたって、各社がなぜこうした調査設計をしたのか、私が知っている事実とそれをもとにした推測を述べておきます。

(1)自動発信するオートコールと自動音声を用いているのはなぜか。

 調査員が電話で調査する場合は、調査会場と調査員の確保が必要となります。通常の内閣支持率調査に比べて調査規模が桁違いに大きいですから、臨時の会場のレンタル費や新たな調査員の雇用と指導コストが膨大になります。また、投票日が当初の見込みであった11月7日や14日ではなく10月31日に前倒しされたことで、もし相当数の調査員を用いることを予定していたとしたなら、会場や調査員の手配が間に合わないとか、契約変更による違約金の発生も考えられます。調査員を用いない自動音声であれば、そうした問題は解消されますし、コストは格段に安くなります。経営状況が厳しい新聞社においては、むしろコスト意識を優先して自動音声に切り替えた可能性が高いでしょう。

(2)自動発信や自動音声による調査で選挙情勢を読みとれるのか。

 まったく不可能、というわけではありません。選挙情勢調査で調べた支持率が実際の選挙得票率と違っていても、「調査支持率ー選挙得票率」で計算したズレを補正する手順を見いだせれば、選挙情勢は読み取れます。ただし、選挙中の調査では正解となる選挙得票率がまだわかりませんから、過去の選挙による調査結果と選挙結果の偏りを把握しておき、今回選挙も同じような偏りになると仮定して補正すればよいのです。さて、「自動音声で調べた回答の偏り」と「調査員が調べた回答の偏り」は同じでしょうか。前回衆院選挙の予測では、自動音声ではなく調査員による調査のデータを用いていますから、衆院選における自動音声調査の偏りをどの新聞社も持ち合わせずに予測したということになります。さらに、その対象となる電話機は、前回選挙では固定電話のみでしたが、今回は大半の回答を携帯電話から獲得しています。自動発信で携帯電話に着信があり受話器から自動音声が流れる、そうした調査に回答する人たちと無視したり拒否したりする人たちの間に「投票行動」の違いはないのでしょうか。読売新聞社と日経新聞社が協力して調査した(この下の項で説明)序盤調査の投票先未定者は2割ほどで終盤調査では1割程度でした。争点が無く盛り上がりに欠けた選挙としては候補者の名挙げ率が高くなっています。今回選挙の事前予測では、「自動音声」と「携帯電話」という2つの新しい設定に対する調査データの偏りを、補正できなかった可能性が高いと言えるでしょう。

(3)調査方法をみれば協力して調査していることが読み取れますが。

 はい、そのとおりです。毎日新聞社は埼玉大学にある社会調査研究センターが関る同名の調査会社と協力して、内閣支持率調査(世論調査)に自動音声を導入しました。共同通信社は加盟社である毎日新聞社の調査データを活用して序盤情勢を報道(10/21)しています。ただし、共同通信による配信記事では有効回答数が毎日新聞社のものより3票多い17万4027票になっていることの理由は知りません。一方で、共同通信社が配信した10/27の記事の調査方法には自動音声や携帯電話といった語句が記載されていません(固定電話対象と思われる)。通常、共同通信が配信する情勢記事は、共同通信社が独自に実施する調査(今回は10/21配信のもの)と加盟社である地域のブロック紙が実施する調査を集積して全国積算するもの(今回は10/27配信のもの)があります。日経新聞社が調査を委託している日経リサーチ社は、内閣支持率調査などの世論調査にはまだ自動音声を導入していませんが、マーケティングへの利用目的で「世論観測」という名目で自動音声の調査を始めています。今回衆院選ではこの経験を活かして自動音声による調査を導入したようです。読売新聞社と日経新聞社は10年以上前から両社の名前で協力して調査(依頼)をしており、データ分析や紙面で独自性を競っています。ただし、今回選挙の日経紙面(10/21,13版)では有効回答数が17万2227人となっており、各選挙区と比例区の情勢報道をした翌日紙面では18万6863人(読売紙面と同じ人数)と増えています。調査進行中から収集済みのデータだけで議席予想を進めていく態勢が普通ですから、日経新聞(13版)では最終データを含まない直前の分析での予想議席が掲載された可能性があります。

■朝日新聞社在籍時に調査手法開発や選挙予測を担当してきた経験から、今回の電話調査はかなり外れると見立てていましたが、これほど劇的だとは想定外でした。読売と日経の両社は、終盤情勢も序盤と同じ方法で調査していますが、予想議席はほとんど変わっていません。序盤から自民が単独過半数を大きく上回る情勢であったにもかかわらず、調査手法の癖を修正できずに最後まで情勢を読み誤った可能性が高いと判断できます。この判断が正当かどうか、小選挙区の情勢判断を各紙個別に整理して比較することで、再確認してみたいと考えています(年末年度末までに分析レポートを掲載予定)。もちろん、ネット調査による情勢予想がどれだけ正確だったか確認することも楽しみです。私が2度目の職場となった埼玉大学社会調査研究センターを辞めた理由の一つは、こうした電話調査にかかわりたくなかったことでした。

■携帯電話も調査対象に含めた内閣支持率調査により、コロナ禍の対応に苦労した前・菅内閣の支持率の激動が報道されていましたが、正当に世論を反映したものだったのでしょうか。各社の内閣支持率調査の結果への疑問はSNSなどで拡散されていますが、この選挙を経て、さらに疑問が膨らんでいることでしょう。調査方法を転換させる契機は、選挙予測の失敗(新手法での成功)と新内閣発足のタイミングによります。朝日新聞社が準備を進めているとすれば、このタイミングで内閣支持率調査もネット調査に切り替える可能性があります。さて、如何に。(20211104:文章や語句の訂正/削除、説明文の追加)。

TF-20200701 「電話調査の限界」

■今年のAAPOR(アメリカ世論調査学会)カンファレンスはコロナ禍の影響を受けて、6月11-12日にオンラインにて実施された(例年は5月中旬に4日間実施)。そのためTwitterによるつぶやきは例年ほどには目立たなかったが、一つ注目されるものがあった。アメリカのセンサス局調査測定センター長であるPaul Beattyが主演/歌手となり電話調査の現状を演じた映像(I'm Still Callin')である。最後にDon Dillmanが本人として登場しHave you thought about doing a web survey?と問いかける。詳しい説明はいらない。視聴すればその意味が感覚的に伝わってくる。

■アメリカでは日本のように役所が管理する完全な名簿(全住民や全有権者を網羅したもの)が無い。そのため、名簿から調査対象者を抽出するのではなく、調査地点を踏査して住民リストを作成してから調査対象者を選定する方法(エリア・サンプリング)が主流であった。電話の普及率が高まると同時に、電話番号をランダムに作成して調査対象世帯を選定するRDD(Random Digit Dialing)が学術、政府、報道の各分野で用いられた。しかし、調査地点を踏査しなくても、名簿から抽出しなくても、電話番号は簡単に発生できることから商業的な調査あるいは調査を装った販促にも使われ、住民は「迷惑電話/調査の洪水」に巻き込まれている。その対策として、電話による調査や勧誘を拒否できるDoNotCallの仕組みが出来上がっている。アメリカの連邦通信委員会(FCC: Federal Communications Commission)は自動発信や自動音声によるロボコールの規制を強めている。FCC、携帯電話、自動発信などの用語で検索すれば該当資料が見つけやすい。例えば、日本語に翻訳された記事はこちら。いまのところ日本にはDoNotCallの仕組みはないし、総務省が規制強化する様子はない。住民(消費者)が迷惑行為に対する声を結集すれば行政も動くであろう。

TF-20200525 「感謝より催促で回収増」

■郵送調査では、未回答者へ「催促はがき」を送付すれば、有効回収が増えます。どのような文面にすれば、効果が高まるのでしょうか。回答を催促する文面では、調査対象者の機嫌を損ねるかもしれません。回答意欲を高めてもらうために、調査にかかわってもらうことを感謝する文面を用いる調査者もいます。欧米で普及するディルマンの郵送調査法ではこのサンキュー・メールを推奨しています。日本で催促文面と感謝文面のどちらが効果的か実験されましたが、感謝文よりは催促文のほうが回収効果が高いのです。この事実にはどのような知見が隠れているのでしょうか。

〔図の説明〕調査対象者を等質な2群に分けて催促はがきの文面の違い(A:催促強調とB:感謝強調)による返送効果を比較実験した。2008年1月23日(水)予告はがき発送、1月30日(水)調査票(締切日を2/15と記載)発送。2月13日(水)に未回答者(A群は640人、B群は660人)に催促はがきを発送し、2月21日(木)に調査票を再送して再催促。感謝強調より催促強調のほうが返送効果は高い。なお朝日新聞社には社内局があり、日曜日にも郵便が配送される。

■先に紹介したTF-20200501A「催促は高回収を妨げる」では、催促を何度も繰り返せば回答意欲を損ねて高回収を望めないと指摘している。だからこそ、1回の催促で回収効果を高める工夫が求められる。2008年に朝日新聞社が実施した全国世論調査(郵送法)で催促はがきの文面の効果を確認する実験がなされた。AとBの等質な2群に対して2種類の催促はがきを用意した。はがきの上部に印刷した見出し文は、A群では「朝日新聞社の郵送調査にご協力ください」、B群では「朝日新聞社の郵送調査へのご協力、ありがとうございます」とした。その下に続く説明文の最初の5行は、A群では「先日、あなた様に郵送で『全国世論調査』へのご協力をお願い申し上げました。もし、まだお手元にピンク色の調査票がありましたら、お忙しいところ恐れ入りますが、ご回答のうえ返信用封筒に入れてお近くのポストに投函していただけませんでしょうか。」、B群では「先日、みなさまに郵送で『全国世論調査』へのご協力をお願い申し上げました。おかげさまでみなさまからのご回答が集まりつつありますが、あと一息です。多くのみなさまのご協力をいただき、信頼性の高い紙面を作ることができれば幸いです。」とし、催促および感謝の強調度合いを差別化した。ただし、見出し文を除いて全文面の内容はほぼ同じであり、文章の配置などの違いで差別化してある。

■2008年2月13日午前中までの調査票返送者(白紙返送含む)や苦情連絡者を除いたAB両群合わせて1300人に対して催促はがきを午後に送付した(前日までの返送や苦情に合わせて催促はがきを印刷しておき、発送当日の午前中に返送された調査票の整理番号に一致する催促はがきを取り除いて発送する。郵送調査とはいえ迅速な対応が求められる)。催促はがきは水曜日(2/13)午後に投函され、木~土曜日にかけて全国に届けられ、回答を記入してから投函された調査票が返送される翌週月~水曜日(2/18-20)の返送数はA群がB群のほぼ2倍になっている。一方、催促はがき受け取り後も返送しなかった人に対して色違い(黄色)の調査票(AB両群で同仕様)を2月21日に発送して再催促した後では、催促はがきによる返送効果が低かったB群の返送数がA群をやや上回る形状になっている。返送する可能性のある潜在的回答者(potential respondents)に対して、いかに回答行為に結びつけるかの工夫(タイミングも含む)が重要であることが分かる。しかも、接触の回数を高めるほど社会的交換理論による「負担」が累積されて回答行為につながる「利益」が目減りするなら、最初の催促はがきの文面は回収率向上のための重要な要素となる。もちろん催促はがきを送る前(調査票送付時)の工夫がさらに重要である。

■内閣府は、2014年2~3月に面接法で実施されている「社会意識に関する世論調査」の質問を郵送調査でも実施して比較検討している。この比較実験は、日経リサーチの佐藤寧氏が内閣府大臣官房政府広報室 世論調査専門職に出向して実施・管理された。面接調査の回収率が61.9%に対して郵送調査は75.3%と高い。郵送調査の回収率を高める要因を検証するために「依頼強調」と「感謝強調」の2種の催促はがきによる返送効果を確認している。「依頼強調」の催促はがきを送付した747人では返送効果が現れる1週間で延べ235人が返送し「感謝強調」の催促はがきを送付した729人では181人が返送した。新聞社と政府、質問数や調査テーマの違いはあっても、催促や依頼を強調したほうが返送効果が高いことが示された。欧米で推奨されるDillmanのThank you mailは、日本においては効果は無さそうである。

■なぜDillmanは、Thank you mailを推奨するのか。理論上では、社会的交換理論による「報酬」の積み上げと「信用」の獲得のためである。ただ、郵送調査の運用を考えれば、アメリカの郵送事情(不達や遅延などのトラブルが多いと言われている)により催促状発送のタイミングを設定しにくいことは、容易に想像できる。そのため、調査票を発送してから1週間後ぐらいに対象者全員に対して催促状を発送している。すでに回答した人にも催促状を送ることになるから、催促を強調した文面を採用できないのである。一方、日本の郵送事情の良さを利用するなら、未返送だった人だけに催促を強調した催促はがきを送るほうがよい。potential respondentsに回答をうながすのに有効な理論は、社会的交換理論だけではない。催促を受ければ嫌な気持ちになるし、その後も返送を怠れば嫌な気持ちは残り続ける。この嫌な気持ち(心の不協和)を取り除くには回答を返送するしかない。催促を強調する文面が返送率を高めるのは、心の不協和を取り除くために回答しようとする人が多数いることを示唆している。この認知的不協和理論の援用も回収率を高める工夫の一つとなる。

■参考文献■ 掲示された図は、講演や講義などで利用されたものである。いずれ「Slide/Rept」で開示する。内閣府による面接調査と郵送調査の比較実験は2014,2015年の2回実施された。上記した佐藤寧氏らがまとめた報告書や「内閣府の世論調査に関する有識者検討会」による提言は「References」のサブメニュー「Other Ref.」に掲示されているOR2014-15のリンク先で閲覧できる。Dillmanによる郵送調査の運用の簡易一覧表は「References」に掲示されている論文:R2008Bの24頁にある表3で確認できる。

TF-20200508 「さらば RDD !?」

■報道される内閣支持率などは、乱数を発生して作った番号に電話するRDD(Random Digit Dialing)法で調査されている。電話帳に掲載されていない番号にも調査できることから、日本では電話帳への掲載率が低下した2000年頃から急速に普及しました。固定電話を持たずに携帯電話だけ所有する「携帯限定層」が20%を超えた近年は、調査協力率が格段に低下しています。アメリカでは、携帯限定層の割合が20%を超えた2009年頃に "Goodbye RDD!" と叫ばれましたが、日本でもそろそろ「さらばRDD!」と叫ぶ声が高まるのでしょうか。

〔図の説明〕固定電話を持たず携帯電話のみ所有する携帯限定層(CPO: Cell Phone Only)は、アメリカのNHIS (National Health Interview Survey: 2018年6-12月) によれば56.7%。朝日新聞社の郵送調査(2019年3-4月)による21%を大きく上回る。アメリカでは2009年頃に20%超になっている。

■RDD (Random Digit Dialing) 法は、1960年代にアメリカで開発された。1980年代のアメリカでRDD法が報道のみならず政府機関や学術方面にも広く普及したのは、①電話の普及率が高まったこと、②ミトフスキーのアイディアを活かして効率よく調査対象者を確率抽出できた(統計的に誤差幅を計算できる)こと、③調査員によるエリアサンプリングの精度と効率に限界が生じていたことなどによる。しかし、①1990年代に入って電話の使用番号数が増えて家庭用の番号数が占める 割合が下がっていった、② 90 年代半ばからは1年に2~3%ずつ回収率が低下した、③携帯電話が普及し全世帯の約5分 の1が携帯電話のみの所有で間借り人や若者ではさらに比率は高い、④世帯用電話番号が1件も掲載されていない頭8桁の番号ブロックを無視することはもうできない、といった理由から2000年代には「A案:固定電話と携帯電話の両方を対 象としたRDD法の開発」と「B案:サンプリングのベースを電話番号から住所に切り替える」への選択に迫られた。

■このB案としてABS (Address Based Sample) の有効性を積極的に提示したのがマイケル・リンクである。利用する住所リストは、米国郵政公社 (USPS) が使用している郵便集配リスト (DSF = Delivery Sequence File) である。こ のリストには住所はあるが名前はない。リンクは、 CDC(疾病対策予防センター:上図のNHISも実施している)に居たときにABSの可能性に気づきABSへの転換をもくろんだが許可がでなかった。「断ることのできないチャンスだった」とリンクが語るように、絶妙なタイミングでニールセンがリンクをヘッドハンティングした。RDDで対象者を選定していた視聴率調査をABSに切り替えるプロジェクトにはリンクが必要だった。役所が管理する完全な名簿がないアメリカでは、調査対象地域を踏査して対象者リストを作るエリア・サンプリングや乱数で電話番号を作成して発信リストを作るRDDが「確率抽出」が可能な科学的な手法として認められてきた。しかし、カバレッジやレスポンスの悪化により回収標本の代表性が崩れてきた時点で、調査者の苦闘の中からABSという有能なリストが見出された。

■2009年、"Goodbye RDD, Welcome ABS!"との声が聞こえた頃に、Web調査法研究の権威であるミック・クーパーに問いかけてみた。 「インターネット調査がポピュラーに なってきたときに『グッバイRDD』と言った人たちのことを思い出すよ。でもいま、RDDによる電話調査もインター ネット調査も両方とも実施されているよ ね」と答え、RDDはすぐになくならないことを予言した。そう、A案(固定電話と携帯電話対象のRDD)に取り組んだ人がいる。その立役者の一人にコートニー・ケネディー (Pew Research Center) がいる。この話もいずれ紹介する。さて、「さらばRDD!?」のタイトルの「!」か「?」か、あなたはいずれを選びますか。

■参考文献■ 日本では電話調査は学術調査であまり利用されていないので、調査法関連の書籍には正確な情報や評価が掲載されていない。電話調査の歴史や種類、課題などについての詳細は「References」に掲示されている論文:R2018Eで学べる。アメリカのサンプリング手法の一大転換(ABS法への切り替え)の詳細は報告論文:R2009A, R2009Bで確認できる。

TF-20200501A「催促は高回収を妨げる」

■調査対象者の数に対する回答者(調査協力者)の数の割合を回収率と言います。回収率30%の調査結果には残り70%の人の意見が含まれません。協力者と非協力者とで行動様式や考え方に違いがあれば、30%しかない協力者の回答結果で全体的な傾向は読み取れません。だから、調査者は回収率を高めるために未回答者への催促を繰り返します。教科書でも催促を推奨しています。でも催促されると嫌な気持になりませんか。調査への協力度合いが低下した現代においても、催促を繰り返すことが本当に効果的なのでしょうか。

〔図の説明〕面接調査の対象者3000人を同質の2群(AとB)に分けて事後監査を郵送調査で実施。AとBの違いは謝礼(図書カード)の告知時期のみ。赤(A)と青(B)の線は累積返送数(目盛は左)、縦棒は両群の日々の返送数の差(目盛は右)。なお、2007年11月19日(月)に調査票を投函、12月5日(水)に催促はがきを投函した。

■AとBの両群に対して調査票とインセンティブ(ボールペン)を同封して送ったが、A群の依頼文には回答すれば図書カード500円贈呈と記載し、B群には同封のボールペンが謝礼だと記載した。ただし、未回答者への催促はがきではAB両群とも同じ文面で回答者に図書カード500円送付と記載し、返送状況の比較実験をした。結果は図の通り、催促状により謝礼の情報量が同じになったにもかかわらず、B群の累積返送数がA群に追いつかず一定の差が残る。

■この現象を、社会的交換理論を要約した「利益」=「報酬」-「負担」という式で読み解く。調査票受け取り時のA群の「報酬」は同封のボールペンと約束された図書カードであるが、B群はボールペンのみである。そのため、A群の累積返送数は徐々にB群を引き離して増えていく。催促はがきを受け取ったB群の未回答者は、このとき初めて図書カードがもらえることを知り、「報酬」の合計量はA群と同じになる。だからB群の累積返送数は、この時点から増加率が増し(曲線の傾きが大きくなり)A群を追いかけ始める。「報酬」の合計量が同じになったにもかかわらずB群がA群に追いつかないのは、催促文面による嫌な気持ちが残るという「負担」が発生したからである。つまり、催促状を受け取る前のA群の人の「利益」はボールペンと図書カードの「報酬」に等しいが、催促状を受け取ったB群の人の「利益」は「報酬」から催促による嫌な気持ちの「負担」の分だけ目減りした「利益」になる。だから、同じ「報酬」量の告知があっても催促後のB群の累積返送数はA群に追いつかず、催促による「負担」の分だけ差が残ることになる。

■「報酬」や「負担」は物質的なものだけではなく精神的なものも含む。調査に協力することで社会の役に立つという満足感も「報酬」になる。質問の難しさや分量の多さは「負担」になるし、饒舌な依頼文も「負担」になるかもしれない。そうしたことを「利益」=「報酬」-「負担」の式で「利益」が高まるように対策を立てることで、調査の回収率を高めることが出来る。松田が提唱した有効極大化法EMM: Effective Maximization Methodを調査運用に適用するときの極意は、全対象者に対して為される催促の累積数を極小にすることである。全対象者の累積「負担」が極小化できれば、催促状などの郵送料が節約できる。その節約分を調査票発送時に同封するインセンティブに充てて初期の「報酬」を高めれば、早期の協力者が増えて催促数も減るために調査協力に至る「利益」を極大化できる。こうした戦略で郵送調査の回収率を8割近くに高めることができた。

■参考文献■ 「References」に掲示されている論文:R2013AではEMMの原理を用いて郵送調査で回収率を高めるための工夫や考え方が簡略にわかりやすくまとめられている。論文:R2010Bではこの図を使った説明と郵送調査法の開発過程および運用記録の詳細が開示されている。論文:R2010Cでは有効極大化法(EMM: Effective Maximization Method)の考え方や効用を説明している。

TF-20200501B「Shy Trump効果は無かった」

■2016年のアメリカ大統領選挙ではヒラリー・クリントン(民主党)の優勢が開票前も東海岸から開票が始まった後も叫ばれたが、開票中に急展開してドナルド・トランプ(共和党)が勝利した。この選挙予測の大失敗は調査法の課題をいくつか提示している。調査でトランプ支持率が低くなったのは、有権者が支持表明をためらう「Shy Trump効果」があったからだと学術機関も報道も指摘した。しかし、AAPOR(アメリカ世論調査学会)は事後分析でこれを否定している。

〔図の説明〕事前調査による予測値を根元とし選挙結果を矢尻として予測値と結果の差を視覚化すると同時に、投票の前後でトランプとクリントンのどちらが多数かを仕切り線(右赤側がトランプ多数、左青側はクリントン多数)で判別できるようになっている。

■図は事前調査による予測値を根元とし選挙結果を矢尻として、投票前と後とでどちらが多数かを仕切り線(右赤側がトランプ勝利、左青側はクリントン勝利)で判別できるようになっている。ノースカロライナ、フロリダ、ペンシルバニア、ウィスコンシン、ミシガンでは事前予測でトランプ劣勢だったが、投票の結果、トランプが勝った州である。2000年の大統領選挙でもブッシュとゴアが大接戦を演じ、開票後の報道では双方の勝利宣言が二転三転したが、このときの予測に大きな影響を及ぼしたのはフロリダ州のみであった。それに比べれば、2016年は5州で予想を外したためトランプの大逆転が印象付けられた格好である。アメリカでも日本でも政治学者や社会学者および報道機関が、トランプ支持者が調査で支持表明をためらったためにトランプの勝利を読み誤った(Shy Trump効果)との見解を広めた。しかし、AAPOR(American Association for Public Opinion Research:アメリカ世論調査学会)は、学者や調査者の協力を得た委員会を設置し、多くの調査会社から収集したデータを分析して、Shy Trump効果は無かったと宣言している。その根拠となったのは、①全米対象の調査結果は選挙結果と大差がないこと、②各州別の調査結果で大きく外れているものは学歴による補正がなされないまま集計されていたこと、③出口調査では投票日までの1週間の間にトランプに投票することを決めた人の割合が実際の得票率の差よりも多かったことなどである。

■選挙予測が失敗したときには、予測式が悪かったのかデータそのものが悪かったのか、この両面から検証されることが必要である。AAPORの報告書はどちらかと言えば予測式(あるいは補正)の問題を強調しているように思える。アメリカの電話調査(RDD法)の有効回収率は、2012年段階で9%(pew research center, 2012)、この選挙時点では5%程度(相田, 2017)まで低下していたにもかかわらず、超低回収率(データそのものの悪さ)を一番の原因とする論調にはなっていない。調査者自身が「Shy Trump効果」を予測失敗の原因と主張することは、調査法の可能性を狭めることにつながる。データ収集そのものに問題が無かったかどうか、さらなる検討が求められる。従来通りの質問(例:どなたに投票したいと思いますか)ではなく潜在的な投票行動を読み取れる新たな質問(工夫)や調査モードの変更など調査法そのものの改善点についても議論が必要である。

■参考文献■「References」のサブメニュー「Other Ref.」に掲示されている論文:OR2017AでAAPORの報告書を見ることができる。OR2017Bは相田氏の発表スライド、OR2012Aはpew research centerの報告書である。この課題は松田により2018年9月4日に行動計量学会の発表の中で一部提示された。「Slide/Rept.」のスライド:20180904も参考になる。

TF-20200501C「選択肢配置で回答激変」

■同じことを問いかける場合でも、質問文の文言や選択肢文が違っていれば回答結果は変わる。このことは、調査法を学んでいない人でも容易に想像できる。同じ質問文や選択肢文だが、選択肢の並び順や配置が異なるならば回答結果は変わる。このことを気に掛ける調査者は、まだ少ない。面接調査や電話調査の回収率低下の影響を受けて郵送調査やWeb(インターネット)調査の利用が進んでいるが、質問や選択肢文を「目で見る」調査では最初ほうに提示された選択肢の回答割合が高めになることが知られている。この初頭効果(primacy effect)はどのように起こり、どのような場合に強く現れるのだろうか。

〔表の説明〕選択肢1から11までの並び順を調査票BとCでは調査票Aとは逆順にした。ただし、「12.わからない」は常に12番目に置いた。黒地はAに対して有意差(p<0.05)があるもの,灰地は回答比率の差が負の値を示す.調査は2016年2~3月にさいたま市の有権者2000人を対象に実施された。A群とB+C群は統計的に同質な1000人を配分した。

■例示した質問(Q5)は調査票の1頁目の最後にあり、まだ調査疲れが無い時点で回答されたと仮定できる。同一の選択肢を正順(調査票A)と逆順(BとC)にするだけで、A群では一番目に提示された選択肢「1.産業を誘致して雇用を増やす」がB+C群の回答より有意に大きくなり、B+C群で1番目と2番目に提示された選択肢「11.うちの地域ではとくに対策は必要ない」「10.近隣の自治体と協力して地域の魅力を高める」がともにA群よりダブルスコアとなり有意に大きい。こうした差異が発現するのは、人間の認知能力の特性によるものと考えられている。人はOptimizing (最適化)した意思決定をすることが難しい場合には一定の努力でSatisficing (満足化)した決断をしがちである。Krosnick(1991)は、この「満足化」の概念を調査の回答過程に適用して初頭効果発現の仕組みを説明している。ただし、Krosnickの解説では、Task difficultyが大きければ(回答が難しければ)、Abilityが小さければ(回答するための素養がなければ)、Motivationが小さければ(回答意欲が湧かなければ)、「最適化」ではなく「満足化」が発現しやすいという消極的回答行為によるバイアス発生を前提としている。一方で松田(2019)は、初頭効果は消極的回答行為だけではなく、むしろ積極的回答行為によって発現する可能性があることを指摘している。選択肢の並び順が真逆である両群の回答比率の差を物理学で利用されるモーメントに置き換えて分析し、初頭効果は「女性」よりは「男性」で発現しやすく、「主婦」では発現しにくく「学生」では強く発現することを見出した。つまり、「男性」や「学生」は普段の仕事や勉学の中で質問に回答するスキルが磨かれており、消極的ではなくむしろ(自信を持って)積極的に回答することで、Kahneman(2011)が解説した「システム1(速い思考)」が多動して「満足化」された回答が多くなったと考えられる。下の参考文献を確認していただければ、「満足化」や「システム1」の仕組みと回答過程へのかかわり方が理解できる。

■参考文献■ 「References」に掲示されている論文:R2019Aでは初頭効果の発現の仕組みを「満足化」と「システム1、2」の概念を援用して論じている。「Slide/Rept.」に掲示されているスライド:20190921, 20190904も参考になる。