些細な数値差を大きくみせる?: Ognacのブログ

2014年4月25日 (金)

些細な数値差を大きくみせる?

前回、緯度による体重差は無意味に近いことを書きましたが、数値の意義を過剰に認識させる広告やニュースが多いと感じています。

「繋がり易さNo1」のCMが多く流れていますが、提示されているグラフでの最下位との差は、

97.1%から98.6% の差となっている。

ここ

サンプリングは、120,000台なので、誤差率は、sqrt(母数)/母数に当てはめると

　sqrt(120000)/120000 = 0.0028867513459481288225457439025098

となるので、統計面では、有意差は認められる。

しかし、1.5%の差は、実体験できない。逆に、「ソフトバンク携帯は繋がりにくい」という話はよく聞く。

ロケーションの関係もあるが、同じ家の中の位置でも繋がりにくくなるのはソフトバンク機が多く感じる。

件の数字は、パケット接続率なので、各地点による繋がり易さの比ではない。

なんか、キャッチコピーに邪な意図を感じてしまう。

テレビ番組では視聴率1%の差に一喜一憂しているらしいが、この視聴率の値はどうだろう。

ニールセンが撤退してのでビデオリサーチ社一社というのも引っかかる。

各地区に600のサンプリングが中心らしい。

ということは、誤差率 = sqrt(600)/600 ≒ 0.04 = 4%

視聴率 40%は、 36%～44%を意味する。

視聴率 35%は、 31%～39%を意味する。

40%の番組と、35%の番組は差がないことになる。 (厳密には違うが、ざっくり、そう認識して大差ない。)

10%の番組と5%の番組、1%の番組と5%の番組.....有意差は誤差内になってしまう。

率1%で一喜一憂するのは、滑稽に見えてくる。

視聴率は5%単位で表現しても、十分だと思っています。

統計数値の認識視点を自覚しないと、意味の薄いことに振り回されかねない。

惑わすキャッチコピーは要注意ですね。

2014年4月25日 (金) 一般 | 固定リンク

« 体重計の地域補正 | トップページ | 富岡製糸場　遺産指定内定 »

「一般」カテゴリの記事

情報は発信されたものだけを信じるのではなく、多方面から情報の裏づけをとるのが理想ですね。

投稿: noname | 2014年4月25日 (金) 12時51分

以前にも、ひろみちゅ先生が怒りくるってたなー
http://takagi-hiromitsu.jp/diary/20070128.html

投稿: 774RR | 2014年4月25日 (金) 20時18分

> 視聴率 40%は、 36%～44%を意味する。
> 視聴率 35%は、 31%～39%を意味する。

　この論理が通れば、真値35%の視聴率は、統計値31%(=上限に触れた)でも統計値38%(=下限に触れた)にもなり得るから、視聴率 31% と 38% は差がない、と解釈することも可能そうだけど、本当にそうなのか？
　そもそも、計測誤差と統計誤差は違っていて、少なくとも 600 世帯で計測した視聴率に計測誤差はないのではないかと思いますけど。>元の話は体重計ですよね？ #もっとも重力補正は計測誤差じゃないけど

　あとは、パケット接続率はよいだけに切断率も高いとかね。#しらんけど

　ちょっといろいろ混ざってしまっていて混乱気味ではないかと思います。

投稿: Pasie. | 2014年4月26日 (土) 00時13分

>日常化するNHKの捏造棒グラフ
数値をグラフ化するときに、軸を工夫して、表現することを「捏造」とするか否かはなんとも言えませんが、
意図的に誤解を誘発する表現は引っかかります。

https://www.nissay.co.jp/enjoy/keizai/44.html
このページの二番目のグラフの横軸ですが、年度間隔か均一でありません。これだと増加率が急増していると錯覚を誘発します。

少年犯罪が急増しているとか、凶悪犯が増加しているなどのニュースも印象操作があると思います。
罹患率が 0.01%が0.03% に3倍増加していると報道されるときがありますが、すぐ平準化することが多いと思う。
継続的に増加しているか否かの見極めをしないまま、騒ぎになる傾向があるように見えます。
事実は一つでも、表現者の意図が入ってしまうのは、理系、人文系の区別なく存在するので、読み手が心がけて考えることが大事ですよね。

>本当にそうなのか？
>視聴率に計測誤差はないのではない
単なる集計でしょうから。計測誤差はないでしょうね。
サンプリング間隔が1分らしいので、ザッピングしている視聴者の視聴率補正は難しいとおもう。
数分間継続視聴しているのが、ザッピング途中の一瞬表示をカウントしているのか区別できないと想像する(できるのかも知れないが)
統計誤差４%ですが、率40%の範囲は36%～44%と見なせるでしょう。
別の調査で率38%と出たとき、差の2%は誤差内なので、事象は僅差だと考えています。
誤差が4%ならば、率の表現単位は、8%単位で表現するのが的確だと思うんですよね。
　9%と10%の差が大差のように扱われるのが引っかかります。

>パケット接続率
パケット接続率って、体感できるのだろうか、通話中に途切れることを意味するのだろうか。
(私の)身の回りの人が言う「繋がりにくい状態」は電波虚弱で端から通じないロケーションが多いという不満です。
なので、パケット接続率でもって、「繋がりやすい」と主張されても「??」と思っています。
数字は事実なので捏造ではありませんが、「問題のすり替え」の印象が拭えません。

投稿: Ognac | 2014年4月26日 (土) 11時28分

> 誤差が4%ならば、率の表現単位は、8%単位で表現するのが的確だと思うんですよね。
　誤差が 8% であることと、表現が 8ポイントごとの階段状にすることと、何の関係があるのだろう？

> サンプリング間隔が1分らしいので、ザッピングしている視聴者の視聴率補正は難しいとおもう。
　このあたり、話のすり替えだと思うんですが、それはともかく統計予測ではなく真値でないと意味がない、ということだろうか…　仮にそうだとすると全数をミリ秒単位で集計して計算しないと結局は「正しくない」という話になりそうですが。

　もともとの話は、私の認識では「体重計の指示精度に対して重力加速度の補正は必要か(計量器の誤差に対して重力加速度の補正は有効か)」だった気がしますが、結局「視聴率は 5% ごとの表示でいい」とか、計測誤差でもないし、統計の話に話題は移動したとしても、統計結果表示としても不正確な方向へ誘導されている気がすると思うわけですが、どうなのだろう？
　もう少し具体的に書けば、11%±4point (=統計の精度±4%) という表示と、 8% (=8ポイント毎階段状)という表示は全く違いますよね?という話。

投稿: Pasie. | 2014年4月28日 (月) 02時49分

計測誤差と視聴率誤差(ザッピングまで拡大したのは、行き過ぎました)が混乱したのは、不味かったですね。
計測値/統計値の何れでも、値に振り回される人がいることが問題だなぁ。と感じます。
視聴率ですが。
許容誤差を1%以下にするためには、母集団を1000件にしないといけないので、非現実的。６００件というのが経済的妥協点なのは理解できます。
http://www2.kumagaku.ac.jp/teacher/~sasayama/macroecon/mailmagasichoritu.html
世論調査はメディア毎の値のブレはあります。でも5%～10%単位でみれば凡その傾向はつかめますよね。
これは調査機関が複数あり、非調査対象者が複数存在し、平準化するから傾向が分かります。
でも、視聴率は、母集団が600件で、計測者が一社のみというのが、計測値の信頼度とブレ幅を大きくしていると思っています。率の値は、+-4%の幅があるので、46%と54%にどれほどの差があるのか....となりますよね。
傾向は読み取れます。この傾向の読み取り方なんですが、
+-4%誤差で率が40%と出たらそれを中央値として、下限36%,上限44%を一つの括りとみなす。
なので、幅8%のバウンダリーで集計すると、概算傾向は掴める。.....暴論ですが。
誤差4%は正規分布の中央値での値にで、端になるほど誤差率は低下します。
信頼度95%でみると、誤差率は2.4%から4.1%なので、４%バウンダリーでもよいかと。(これも暴論に近い?)

同じ趣旨の記事がありますね。
http://www.audience-rating.com/01kiso/b-sansyutu.html

実験計測は同じ対象物に対して複数回計測するのが基本ですよね。
サンプリング抽出が無作為でも、2社で計測していた当時は、各社間で誤差程度の差は生じていました。(5%程度の差は在ったと記憶しています。当時の資料が検索できないのですが)
一社一回の調査結果の数%の差は不毛に見えます。
ビデオリサーチ社が計測機械を設置している家庭の家族は、「我が家は計測社だ」という意識が働いているのでは....という疑問がずっとあります。
その時点で、無作為抽出ではなくなっていると思います。

投稿: Ognac | 2014年4月28日 (月) 11時51分

> 経済的妥協点なのは
　95% って 2σってことではないのかな。その点からもずれている気がする。
　この案件に2σが妥当か？という話はあるかと思いますが、2σって品質管理的にはメジャーな指標なわけでして、それを流用しているだけなんじゃ？ #根拠はありませんが

> 値に振り回される人がいることが問題だなぁ
　Ognac さん自体が振り回されているんじゃないですか？
　ほかの人はどうかしりませんが、統計知っていれば○%と言われても、今回のサンプリングではそういう山がでたんだなー、くらいにしか思わないと思いますけど。15.1% とか言われたときに統計値の「0.1」が真値としての「0.1」と等価だと思い込んでいる時点でアウトでは？そしてそれは数値表現する以上さけて通れないので、桁を減らせばいい、というのはダウトな気がします。
　無作為抽出にしたところで、前提として何を前提として無作為とするか、であるので、全数を拾わないかぎり偏向は残ると思いますけど。

> 各社間で誤差程度の差は生じていました
　5ポイントの精度で、各社間の偏差が5ポイント以内なら、統計的には正しく、理論通りの信頼を出していた、ということでは？これがそれ以上(たとえば同一の番組について10ポイントを超えて違う)という話だと、話にならない、ということかと。

投稿: Pasie. | 2014年4月28日 (月) 20時08分

>この案件に2σが妥当か？
弱点をつつかれた.......
ビデオリサーチ社の解説は
http://www.videor.co.jp/rating/wh/07.htm
となっています。この適用が妥当かと問われると、明言できる裏付けがありません...orz....妥当だとした上での展開です。

>Ognac さん自体が振り回されているんじゃないですか？
確かに振り回されています...orz;

>15.1% とか言われたときに統計値の「0.1」が真値としての「0.1」と等価だと思い込んでいる時点でアウトでは？
少しニュアンスが違うような感じがする。
偏差による誤差率を考慮すると。
・視聴率が40% と42%の違いと、5%と7%の違いは、同じ2%ですが。偏差の度合いで誤差率が変わりますよね。
　上記のURLに照らすと、40/42%は誤差率が4%なので、誤差の半分の差。
　5/7%は誤差率は1.8%なので、誤差以上の開き。
といった分析を加えて視聴率を読み解くより、傾向が維持できる程度に桁を減らして読み解くほうが、判りやすく、説明しやすいと思うのです。(乱暴ですが)
標本数が600ということを考えれば、これで傾向が大きくズレることはないと思う(ダメ?)

>統計的には正しく、理論通りの信頼を出していた、ということでは？
結果的に、ニールセンとビデオリサーチ社の数値差は、誤差内の数値だったと認識してます。それは相互裏付けができ互いの正当性がチェックできるので、調査機関が複数存在する価値が高い。一社だけだと裏付けがないので猜疑の余地があります。

>そういう山がでたんだなー、くらいにしか思わない
ムキになって、持論を正論化しようとしましたが、拘ることもないか。
でも、1%単位の上下でお祭り騒ぎをしている人の話を聞くと、「違うんだよなぁ」...と考えてしまう。
(*)現状だと、サンプル数が少ないし、録画された番組はカウントされないなど、問題が多いらしい。せっかく双方向デジタルになったのだから、絶対視聴率を集計する仕組みを埋め込めば、全番組の視聴率が集計できそうに思う。

投稿: Ognac | 2014年4月28日 (月) 23時43分

> 1%単位の上下でお祭り騒ぎをしている人
　その人が誰かはわかりませんが、視聴率 = 広告収入、ですから。お金なんで。0.1%=いくら、なんで。収入なんで。そりゃ0.1%単位で語って一喜一憂しますて（汗

> 絶対視聴率を集計する仕組みを埋め込めば
　それをして喜ぶ人、いると思います？
　具体的には、CMに入った途端にチャンネルを変えられて、自社のCMが見られないということが、明らかに数値で判明した場合とかを想像すれば…ねえ？（汗

投稿: Pasie. | 2014年4月29日 (火) 00時54分

>お金なんで。0.1%=いくら
効果を金額換算するのは妥当な行為ですが、基準となる数値の確度が云々....となって最初戻り..Loopする。
それ以前の広告効果の算定基準も統計依存なので、広告業界の金額算定の根拠ってアヤフヤそうに見えてしまう。

>それをして喜ぶ人、いると思います？
番組制作者は知りたがりますね。自分の作品がどれくらい視聴されたか。
視聴率は広告主の為に存在ので、クリエイター側の評価基準が無いに等しい。
低視聴率でも少数に支持される番組は、マスメディアでは存在できないのが残念。
見たい番組は録画して後日、ゆっくり見るという人の意見が反映されないのも、どうかと思います。

投稿: Ognac | 2014年4月29日 (火) 10時32分

> 基準となる数値の確度が云々....となって最初戻り..Loopする。
　しません。
　指標値に対して価格が決定しているわけだから、真値と差があるかは問題ではありません。
　金を払う側が視聴率と広告効果に相関がないと判断したら、別の指標を持ち込むように働きかけるだけだと思います。（あるいはＴＶ CMからは撤退するか)

> 番組制作者は知りたがりますね。自分の作品がどれくらい視聴されたか。
　それって正確さ(=母集合全体に対する比)は必要ですか？
　具体的には、600サンプル中いくらみられたか？で満足できない理由って何でしょう？

> 視聴率は広告主の為に存在ので、クリエイター側の評価基準が無いに等しい。
> 低視聴率でも少数に支持される番組は、マスメディアでは存在できないのが残念。
> 見たい番組は録画して後日、ゆっくり見るという人の意見が反映されないのも、どうかと思います。
　これらは仮に現在の視聴率の算出精度が上がったところで解決しない問題ですよね？
　なにを論じられようとしていますか？

投稿: Pasie. | 2014年4月30日 (水) 02時32分

論点が散乱してしまって御免。
・視聴率の1～5%の差は意味が薄い...騒ぐ程の差ではない....というのが趣旨
・CM業界は効果を数値しか捕捉できないので視聴率を根拠にするのは理解できるが、その粒度は誤差率程度で十分だ...というのが副趣旨。

>> 見たい番組は録画して後日、ゆっくり見るという人の意見が反映されないのも、どうかと思います。
録画して見るのは、その番組のファンである可能性が高いのに反映されないのは、番組作成者として残念な希がします。
民放は営利会社なのでスポンサーの支配下に置かれるのは避けがたい面があります。(ビデオ視聴を含めたくないのは解る)

でも公共放送という一面もあり、ニュース系の番組を一定量放送する義務も追っています。
　(*)そのニュースにスポンサーが付いているという構造的矛盾はありますが
NHKはスポンサー意向が左右されないので、ビデオ視聴を含む実視聴率で評価するのが自然だと考えます。

少数であっても一定数の視聴者が在る番組が消えるは残念。
(滅多に売れないが品揃えの一環や価値かあると判断して店頭に並べる大型店のように、)
継続放送してほしい番組もあります。浪曲番組、劇場中継、懐メロ系(Etc)は壊滅に近い状態。
これは、個人的な思いなので、上記の論から逸脱します。

現実は、母集団600個で１度計測の値しか存在しないので、空騒ぎになったり、不本意な結果を招くことになるのかなぁ。と思うです。
(*)あ。否定はしてませんよ。傾向を掴むという面で、今の視聴率は有意義だと認識しています。

投稿: Ognac | 2014年4月30日 (水) 11時02分

> 視聴率の1～5%の差は意味が薄い...
　繰り返しますが、売り手にとっては視聴率とは放送の販売価格そのものなので、0.1%単位で一喜一憂するのは当然かと思います。その点で意味は薄くありません。
　買い手(広告主)にとっては、視聴率が仮に正確であろうとも関心はなく、関心があるのは広告によってどれだけ売り上げが伸びたか？(あるいは知名度が上がったか、などこのあたりは広告の目的によって変わる）であって、要するに費用対効果が関心の的ですが、「1～5%の差は意味が薄い」わけではないと思います。

> 現実は、母集団600個で１度計測の値しか存在しないので
　結局のところサンプリング測定を否定していますか？
　正確でないと意味がないと言っているのか、正確さが必要だと言っているのかが分からないのですが。
　たとえば歌合戦やってて「審査員だけでは正しくない。会場全員、いや視聴者全員の票を集めないと勝敗は決しない」的な言説に聞こえる。審査員600人でやるゲームなんだから、そこで出た数字がすべてなんじゃないの？と。(で、なぜサンプル数を600と設定したかというと、2σというのがあってですね…的な話では？と。)

　ほかの話は精度の話とは違う話のようなので割愛。

> 視聴率の1～5%の差は意味が薄い...騒ぐ程の差ではない....というのが趣旨
　結局、ognac さんが一番騒いでも意味のない 1～5%の差にこだわっているのでは？

投稿: Pasie. | 2014年5月 1日 (木) 00時07分

> 正確でないと意味がないと言っているのか、正確さが必要だと言っているのかが分からないのですが。
　意味が一緒だ（汗
　「正確でないと意味がないと言っているのか、正確さにこだわることに意味はない
と言っているのかが分からない」です。すみません。

投稿: | 2014年5月 1日 (木) 00時10分

>費用対効果が関心の的ですが、「1～5%の差は意味が薄い」わけではないと思います。
広告主にとって、評価材料が視聴率の数値しかないので、拘るのは理解できます。

>結局のところサンプリング測定を否定していますか？
伝わりにくかったですが、肯定していますし、母集団600件の統計としてみています。
統計値である率を認めた上で、上下n%の誤差があるので、1%の差に歓喜するのが馴染まなかった。...という話です。
>結局、ognac さんが一番騒いでも意味のない 1～5%の差にこだわっているのでは？
その通りですね。「目くじらたてなさんな」と私が騒いだところで、.1%単位で広告料が変わったり、番組が中止になったりする現実があるわけだし。それしか尺度がないし。

「テレビは文化の担い手であって欲しい。」と思いますが、スポンサー(==視聴者)が付かなければ担いようがない。
その分、NHKに頑張ってもらいたいなぁ。
その分野は、動画サイトが台頭してくるかもしれませんね。

投稿: Ognac | 2014年5月 1日 (木) 16時25分

　うまく伝えられないな…
　なんか結局は、統計誤差(?)と測定誤差をごっちゃにして会話しているから、という気がどうしてもする。
　私の中では、厳密な統計の計算式はともかく、600サンプルで60人が視聴したら 10% であって誤差なんかないんですよね。そこから全数を想像するのはいいけど、あくまで600サンプルでの数字がすべて。
　もちろん600サンプルだけを調査したいわけではないけど、統計数値にすると、区間A-Bに入っている確率がC% 的な話になるはずで、そもそも算出した視聴率が 5% をこえて全く違うところに行っている可能性もあるわけで…とか言い出すときりがないわけで。
　結局、統計による確率と統計による「この範囲に入っている」誤差と、計測誤差は別のもののはずだけど…という思いが強い・・・

> 動画サイト
　動画は確かに正確な数値がはじきだされますが、視聴率調査では問題の少ない水増し問題とかもあるわけで、まあ頑張ってください、としかいいようが・・・（汗
　http://blog.livedoor.jp/itsoku/archives/36883672.html

投稿: Pasie. | 2014年5月 1日 (木) 23時17分

>あくまで600サンプルでの数字がすべて。
この認識は、同じだと思います。
単一結果の集計なので、測定誤差は発生しないことも同意。
なので、測定誤差の話の延長線上で持ち出したのは私の非です。
統計は、万人共通で数値が示す事実がすべてであり、そこから全体の俯瞰が可能にするのが統計である。と認識しています。
100世帯のうち、1世帯が視聴していたら、1%であってこの[1]は動じない。
この事実の解釈を、私が拡大解釈/都合解釈しているのかしら。統計学的考察から逸脱しているのだろうな。多分。

「測定値が50%でその揺らぎ幅が5%のとき、真値は、50±5の範囲である」というだけで、50%と48%は異なる意味を持つ。
このことを「誤差の範囲内だから、同値とみなせる」としたことが、暴論だったか。

再度、統計論を見直そうっと。

番組のオンデマンド配信が活性化してくると、視聴率の在り方が変わるのでしょうね。

投稿: Ognac | 2014年5月 2日 (金) 14時40分

今回の議題とはちょっとずれますが

> 真値は、50±5の範囲である
> 誤差の範囲内だから、同値とみなせる
を実現するため、抵抗とかコンデンサとかの容量は E6 系列とか E12 系列とかで決まっています。
5% なら E24 系列です。

投稿: 774RR | 2014年5月 2日 (金) 21時07分

>を実現するため
工業製品は物理特性として、誤差率を考慮して作られるんてすね。
適用する回路自体の動作範囲に収まっていれば、よいわけですね。
ハード実装だと解釈が一定なので問題にならない。
統計の読み方も、ハード実装に準拠したらよいかも。

投稿: Ognac | 2014年5月 3日 (土) 13時08分

> 統計の読み方も、
　んー。
　結局計測誤差と確率がごっちゃになっているのではと…（汗

　…サイコロの出目の確率は1/6。では、必ず6回振れば1回任意の目は出るか？仮に出るとして、では３回振った場合はどうか？任意の目はその３回のうちどう出るのか？

p.s.
　ちなみに E系列の誤差。対象に対しての % なので、対象の容量が大きいほど幅は広くなる。
　　http://www.buturigaku.net/main04/capacitor/080.html