はてなキーワード: しきい値とは
まず、因果推論全般では、「相関がある/ない」と「因果関係がある/ない」を同じ軸で考えない。
相関は、観測されたデータ上で見える関係である。因果は、一方を変えたときに、もう一方が変わると考えられる関係である。
なお、「相関がない」と書くと完全に無関係であるように読めるため、以下では原則として「相関が見える/見えない」と書く。
そのため、全体像としては、次のような2×2で整理するとわかりやすい。
| 分類 | 因果関係がある | 因果関係がない |
|---|---|---|
| 相関が見える | A. 因果関係が相関として見えている | B. 見かけ上の相関 |
| 相関が見えない | C. 因果関係はあるが、相関として見えにくい | D. 関係が見られない |
ここでいう「相関が見えない」は、「その観測方法・分析方法では相関が確認できない」という意味であり、完全に無関係であることを直ちに意味しない。
この表は、あくまで全体像を示すための地図である。因果推論では、相関が見えるかどうかと、因果関係があるかどうかを分けて考える。
Aは、相関が見えており、因果関係としても説明できる場合である。
Bは、相関は見えているが、それが因果関係を示しているとはいえない場合である。いわゆる擬似相関はここに入る。
Cは、因果関係はあるが、単純な観測データでは相関として見えにくい場合である。非線形の関係、時間差のある関係などが該当する。
Dは、相関も見えず、因果関係も想定しにくい場合である。ただし、相関が見えないことは、完全に無関係であることを直ちには意味しない。
したがって、因果推論全般では、相関が見えるからといって因果とは限らないし、相関が見えないからといって完全に無関係とも限らない、という両方の注意が必要になる。
一方、高校教科「情報」で扱う範囲は、因果推論全般そのものではない。
高校範囲で中心になるのは、散布図や相関係数をもとに、今見ている2つのデータの関係をどう読むかである。具体的には、散布図や相関係数を使って、2つのデータに直線的な関係が見えるかを確認する。そのうえで、「相関が見えるからといって、因果関係があるとは限らない」という点を学ぶ。
先ほどの分類表を高校「情報」の範囲に寄せると、次のように整理できる。
| 分類 | 高校範囲での扱い |
|---|---|
| 直線的な相関が見える | 高校1:因果関係として説明できる場合/高校2:擬似相関の場合 |
| 直線的な相関が見えない | 高校3:相関が見られない。ただし、完全に無関係とは限らない |
高校1は、直線的な相関が見え、背景知識などから因果関係として説明できるもの。これは、全体表のA「因果関係が相関として見えている」にあたる。
高校2は、直線的な相関は見えるが、因果関係として説明できないもの。これは、全体表のB「見かけ上の相関」にあたる。擬似相関はここに入る。
高校3は、直線的な相関が見えないもの。高校範囲では、いったん「相関が見られない」と整理されることが多い。ただし、これは完全に無関係であることを意味しない。非線形関係、時間差、しきい値のように、別の見方をすれば関係が見える場合もある。
高校範囲で中心になるのは、「直線的な相関が見える」場合である。つまり、その相関を因果関係として説明できるのか、それとも擬似相関なのかを考えることが主題になる。
一方、「直線的な相関が見えない」場合については、基本的には「相関が見られない」と整理する。ただし、これは完全に無関係だと断定することではなく、高校範囲では深く扱わない発展的な関係が隠れている場合もある。
相関関係とは、2つのデータの増減に一定の傾向が見られる関係のこと。
高校範囲では、主に散布図や相関係数で確認する。そのため、ここでいう相関は、基本的には直線的な相関である。
片方が増えるともう片方も増えるなら、正の相関。片方が増えるともう片方が減るなら、負の相関。増減の関係がはっきり見られないなら、相関が見られない、と整理する。
ただし、ここでいう「相関が見られない」は、少なくとも散布図や相関係数では、直線的な相関が見られないという意味である。
現実には、曲線的な関係、時間差のある関係、しきい値のある関係などが隠れている場合もある。したがって、「相関が見られない=完全に無関係」とは言えない。
因果関係とは、一方の変化が、もう一方の変化を引き起こすと考えられる関係のこと。
ここでは、原因側のデータ項目を X、結果側のデータ項目を Y と書く。
・X → Y
これは、X が Y に影響している関係である。現実の例で言えば、「気温 → アイスの売上」のような関係である。
この場合、気温の上昇がアイスの売上に影響していると考えられる。
ただし、2つのデータに相関が見えるだけでは、因果関係があるとは言えない。因果関係を考えるには、少なくとも以下のような項目を確認する必要がある。
なお、高校範囲で「因果関係」と言う場合は、多くの場合、X → Y のような単純な関係を念頭に置いている。X → M → Y のような間接因果については、後述する。
擬似相関とは、2つのデータに相関が見えるが、その相関が因果関係を示しているとはいえないものを指す。
ここで注意したいのは、擬似相関は「相関がない」という意味ではないこと。多くの場合、相関は実際に見えている。擬似なのは、相関そのものというより、因果関係があるように見える解釈のほうである。
つまり、擬似相関は、その相関だけでは因果関係を示しているとはいえない相関と考えるとわかりやすい。実際、「擬似」という言い方だと相関そのものが存在しないように誤解されるため、「非因果相関」と呼ぶ方がよいと考える人もいる。
擬似相関の原因には、主に以下のようなものがある。
それぞれ整理すると、次のようになる。
交絡因子による擬似相関は、次の形で表せる。
・Z → X
・Z → Y
2つのデータ X と Y の両方に、第3の要因 Z が影響している場合である。このような第3の要因を、交絡因子という。
・気温 → アイスの売上
・気温 → 熱中症の発生数
このとき、アイスの売上と熱中症の発生数には相関が見えるかもしれない。しかし、次のような因果関係があるわけではない。
実際には、気温という Z が、アイスの売上 X と熱中症の発生数 Y の両方に影響している。
高校範囲では、擬似相関の典型例として、この交絡因子による説明がよく使われる。
特に、たくさんのデータを比べていると、本当は関係がなくても、偶然よく似た動きをする組み合わせが見つかることがある。
この2つが、ある期間たまたま似た増減をしたとしても、それだけで因果関係があるとは言えない。これは、意味のある関係ではなく、偶然相関して見えただけである。
時系列データでよく起きる。2つのデータが、どちらも時間とともに増えている、または減っているだけで、相関があるように見える場合である。
・スマートフォンの普及率
どちらもある期間に増加していると、相関があるように見えるかもしれない。しかし、それだけで、次のような因果関係があるとは言えない。
この場合、両方が「時間の経過」とともに増えているため、見かけ上の相関が生じている。
データのまとめ方によって、相関があるように見えたり、逆に相関が消えたりする場合である。
たとえば、10年分のデータ全体ではほとんど関係がないのに、ある3か月だけを切り取ると、2つのデータが同じように増えているように見えることがある。
これは、特定のトレンドが見えている期間だけを切り取ることで、相関があるように見える場合である。意図的にやれば「都合のよい期間の切り取り」になるし、意図せず起きることもある。
また、全体で見るか、グループ別に見るかで、関係が変わる場合もある。
・学校全体で見ると、学習時間が長い生徒ほど成績が高いように見える。
・しかし、学年別に分けると、その関係は弱かったり、違う傾向が見えたりする。
この場合、学年、クラス、地域、年齢層などの分け方によって、見える相関が変わっている。
さらに、個人単位で見るか、都道府県単位で見るか、国単位で見るかによっても、関係が変わることがある。個人レベルでは成り立たない関係が、都道府県ごとの平均値で見ると相関して見える場合がある。これは、専門的には生態学的誤謬に近い話である。
また、割合で見るか、実数で見るか、平均で見るか、合計で見るかによっても、相関は変わる。
たとえば、人口が多い地域では、店舗数も事故件数も多くなりやすい。そのため、単純な件数同士で見ると相関が出ることがある。しかし、人口あたりの件数に直すと、その関係が弱まる場合がある。
つまり、集計方法の影響とは、期間、集団、単位、指標の取り方によって、相関があるように見えたり、消えたりすることである。
高校情報の教科書では、間接因果は独立した中心概念としてはあまり扱われない。
高校範囲で重要なのは、まず、相関関係が見えても因果関係があるとは限らないこと、そして交絡因子による擬似相関に注意することである。
そのうえで、間接因果については、補足的に考えればよい。
間接因果とは、X が別の要因を介して Y に影響する関係である。中間に入る要因を M と書くと、次のようになる。
・X → M → Y
この場合、「勉強時間」と「点数」の間には、「問題演習量」を介した因果関係があると考えられる。
これは直接の因果関係ではないが、比較的近く、説明しやすい間接因果である。そのため、高校範囲では次のように丸めて説明しても、通常は問題ない。
つまり、近い間接因果は、広い意味で因果関係として扱える場合がある。
・大型商業施設ができる
→ 人の流れが変わる
→ 通学経路や交通混雑が変わる
このような関係は、完全にありえないとは言えない。
しかし、途中に入る要因が多く、他の要因も大量に関わるため、単純な相関関係からこの因果経路を説明するのは難しい。
さらに遠い因果経路まで含めると、ほとんど何でも何かに影響している、という話になってしまう。
そこまで広げると、バタフライエフェクトのような話になり、高校範囲の「相関関係と因果関係」の整理としては扱いにくい。
そのため、間接因果は次のように考えるとよい。
・比較的近く、説明可能な間接因果は、広い意味で因果関係として扱える。
・一方、因果経路が遠すぎるものや、途中の要因が複雑すぎるものは、高校範囲では擬似相関に近いもの、または発展的な話題として扱うのが自然である。
つまり、間接因果は、高校情報の中心的な分類ではなく、発展的な補足として考えるのがよい。
高校範囲では、まず「直線的な相関が見える場合」に、その相関を因果関係として説明できるのか、それとも擬似相関なのかを考えることが重要である。間接因果は、その後に考える発展的な補足として扱えばよい。
高校「情報」で中心になるのは、「相関関係」「因果関係」「擬似相関」を区別して考えることである。
「相関関係」は、2つのデータの増減に一定の傾向が見られる関係である。
「因果関係」は、一方の変化が、もう一方の変化を引き起こすと考えられる関係である。
「擬似相関」は、相関は見えているが、それだけでは因果関係を示しているとは言えない関係である。典型例は、第3の要因である交絡因子が2つのデータの両方に影響している場合や、たまたま似た動きをしただけの偶然の一致である。
ただし、高校範囲で扱う相関は、主に散布図や相関係数で見る直線的な相関である。そのため、「相関が見られない」と整理される場合でも、完全に無関係とは限らない。非線形関係や時間差のある関係のように、別の見方をすれば関係が見える場合もある。ただし、そうした見方は高校範囲では基本的に深く扱わず、大学以降の専門的な範囲に入る。
また、間接因果は、高校情報の中心的な分類ではなく、発展的な補足として考えるのがよい。
要するに高校範囲では、相関が見えてもそれだけで因果とは言えず、相関が見えなくてもそれだけで無関係とは言えない、という点を押さえるのが重要である。
. 「助けない日本人」と「ヘルプを叫ぶ外国人」のプロトコル差
日本人の「逃げろ」: これは自己防衛の最適化だ。「巻き込まれる」というコストを最小化するための指示。だが、コミュニティとしての「回復力(レジリエンス)」はゼロに近い。
https://news.yahoo.co.jp/pickup/6574337
外国人の「Help」: 周囲のプロセスのリソースを強制的に召喚する、割り込み処理(Interrupt)だ。
「日本人は助けない」という君の結論は、冷徹だが一つの真実を突いている。リスクを避けることが「正解」とされる社会では、他者の危機は「自分には関係のない例外処理」としてスキップされる。
https://news.yahoo.co.jp/pickup/6574355
--
20代の人口が激減している中、恋愛・結婚という「高度な交渉プロセス」が、もはやハイリスクな行為になりつつある。
競争の激化と撤退: 少ないリソース(パートナー候補)を奪い合う競争に疲れた層が、早々に「非表示(非干渉)」を選ぶ。
ストーカー規制のトレードオフ: 君が危惧するように、ストーカーの厳罰化は「安全」というパッチを当てる一方で、コミュニケーションの「閾値(しきい値)」を極端に上げている。
男性は「通報」を恐れてアプローチを控え、女性は「危険」を察知して防御を固める。
保守化する社会: 監視カメラと法的制裁による「監視社会」は、エラーを防ぐが、同時に人間関係の「温かさ(柔軟性)」も殺してしまう。
--
20代の約1割が外国人というデータは、もはや「外部ライブラリ(外国人労働者)」なしではこのOS(日本社会)が動作しないことを示している。
しかし、肝心の日本人同士が「互いに逃げ、助け合わず、関わりを避ける」状態であれば、そのシステムは内側から腐食していく。君がこの光景を見る時、そこにあるのは「希望」ではなく「レガシーシステムの末路」だろう。
Twitterの「the-algorithm」リポジトリをもとに、推薦アルゴリズムを数学的に極限まで抽象化すると、以下のように表現できます。
ユーザー u ∈ U に対して、一連の候補アイテム(ツイート) i ∈ I をスコア付けし、降順に並べて上位 K を表示します。
要するに、以下を最大化する推薦問題です:
argmax{i∈C(u)} S(u,i)
ここで C(u) は候補集合、S(u, i) はスコア関数。
数千万から億単位のツイート全体 I から、まず候補集合 C(u) ⊂ I を生成。
グラフ構造(フォロー関係)や「SimClusters」「TwHIN」など埋め込みから近似。
検索インデックス(Lucene/Earlybird)による検索スコアによる絞り込み 。
数理的には、潜在空間中でユーザーとアイテムの距離または類似度 sim(u, i) が上位のものを選ぶ操作。
候補数をさらに削減。特徴量 xᵤ,ᵢ を簡易学習モデル(線形モデルなど)に入力し出力スコア:
Slight(u,i) = wᵀxᵤ,ᵢ
多層ニューラルネット+マルチタスク学習で、複数のユーザー行動(いいね、リプライ、リツイートなど)確率 Pₖ(u, i) を予測。
S(u,i) = Σₖ αₖPₖ(u,i)
例:リプライ Pᵣₑₚₗᵧ に重み 27、著者返信あり Pᵣₑₚₗᵧ_ₐᵤₜₕₒᵣ に 75 など。
投稿者がBlue Verifiedなどでスコアを×4または×2倍。
同一投稿者続出の抑制、逆風バイアス(negative feedback)などが入る。
これは以下のような修正:
S̃(u,i) = mS(u,i)
この構成は一般的なレコメンダシステムの「Retrieval → Ranking → Filtering」の標準パイプラインと整合。
学習モデル fᶿ は特徴量集合・ニューラル構造・訓練データによって依存し、ブラックボックス的。
特徴量 xᵤ,ᵢ は埋め込み、行動履歴、文脈、信頼性指標(tweepcred)等多次元で複雑。
スコア重み αₖ は明示されるが、最適化は A/B テスト・実システムでの評価に基づく。
信頼性・安全性のルール はフィルタとして明示されるが、その詳細(具体的しきい値など)は省略・秘匿されている。
S̃(u,i) = m(u,i) Σₖ αₖ fᶿₖ(u,i)
ここで、
という、レコメンドパイプラインの抽象テンプレートに帰着します。
Twitterの「the-algorithm」は、コード構造の多くを公開しているものの、モデルパラメータ・学習データ・設定ファイルは秘匿されており、上述パイプラインの数学的な枠組みは把握できても、実際の挙動はまだブラックボックスです。
とはいえ、レコメンデーション理論の観点からは、上記の抽象モデルで十分に説明可能であり、汎用の数学モデルとして整合しています。
このエントリは2008年発売のAcer Aspire One ZG5を使って書いている。
中古で買ったネットブック(Acer Aspire One ZG5)をアップグレードし、Linuxディストリビューションをインストールし、軽作業ができるようにしていた。
本体キーボードが壊れることも含めて、あらゆるトラブルに遭い続けている。
直近ではDebian11 32bitをインストールして一通りの作業はできるようになっているが、ハードウェア制御にいろいろな問題が残っている。
CPU: Atom N270 (single core 1.6Ghz)
RAM: 1.5GB
ディスプレイ: 8.9インチ, 1024x600 TFT LCD
OS: Debian GNU/Linux 11 (bullseye) i686
文字を読むのが大好きなのでTwitterはずっとウォッチするのに一番良いSNSだった。
買収直前のTwitterもおかしくなってたが、買収後、特にここ数週間拍車をかけて変化を感じる。もうとっくに変わっているだろというのもごもっともですが…
じゃあどこが気に食わないのよ、というと5万いいね以上のバズの雰囲気が変わった。(バズを見るのが好きで5万いいね以上を検索してまとめて見るのが面白かった)
「5万」は結構なしきい値で、おおむね面白い投稿をみることができてた。今までは…
都知事選、国政選挙は分散されるのか一部盛り上がるが割といいねバズは平和だった。
兵庫県知事選で明確に壊れて、妙な陰謀論が5万いいねを獲得するようになってきた。おすすめ欄がエコーチェンバー装置として優秀すぎるせいか、加速度的に一気に伸びる。
またそれらは(言葉を選ばなければ)すごく高齢者の匂いを感じる。もちろん若い人もいるのだけど…facebook ぽい。長文投稿できるせいかも。
しきい値の問題じゃねーだろwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
全部見て、それなりに楽しめたんだけど
それは全体のクオリティがしきい値を超えていたからで、ベースはやっぱり嫌い
あざとさが鼻につくからだと思う
「女子に制服でガンアクションして欲しい」からスタートしてる作品は全部嫌いだからたぶんあってる
例えばちさととたきなだけ出てきて、2人が戦う理由を掘り下げたならたぶんそこから外れると思うんだけど
というか「おっさん趣味を女子がやる」系の作品って結構その理由付けの部分を掘り下げると思うんだけど
「女子に制服でガンアクションして欲しい」系の作品はなぜか「社会がそうなってるから」で逃げるよね
ただ、あざといアニメを嫌うのは昔から悪い癖なので反省している
そのせいでけいおんすら途中でギブアップして後で後悔したのを覚えている
そうだ、リコリスは設定以外の部分もあざとい動きや演技や展開や設定が多かった
むしろよく見れたなと思う
鼻につくギリギリのラインを攻めていた気がする、個人的にはアウトだったが世間的にはギリギリセーフだろう
もうちょっとあざとさを落としてくれたら美味しく食べられるんだけど、それじゃ目立たないんだろうな
Q1:年度の予算が決まっており、上限を超えないようにしたい
A1:選択肢1の場合、AWS Budgetsを使用してあらかじめ設定した予算のしきい値を超えたときにアラートを発信する設定が可能です。また、AWS Budgets Actionsを使用して予算がしきい値 (実際の金額または予測金額) を超えたときにアカウントで実行するアクションを定義できます。このレベルの制御により、アカウントでの意図しない過剰支出を減らすことができます。
選択肢2の場合、請求代行業者によっては”バウチャー”によるAWS利用も可能です。”バウチャー”とはAmazonギフト券のように、事前に一定の金額分を購入頂きAWSをご利用いただくものです。予算のコントロールが容易になります。
白昼堂々の窃盗、誰も止めることはできないサンフランシスコの日常。
2014年に住民投票で可決された法案により、暴力性の無い$950以下の窃盗は軽罪に。万一逮捕されても即釈放が多く、店側も店員に介入しないよう通達している為、窃盗犯の天国。企業の閉店、撤退も相次ぐ。
ちょっと補足。1000ドル以下の窃盗が微罪(misdemeanor)になったのは2014年に住民投票で可決された法案Prop 47(The Safe Neighborhoods and Schools Act)の結果。正確には重罪(Felony)になるしきい値が450ドルから950ドルに変更された次第。
https://twitter.com/masayang/status/1307955184006385664
微罪(misdemeanor)でも犯罪は犯罪なので、カリフォルニアのほとんどの地域では警察が呼ばれて犯人を捕まえるはず。サンフランシスコの場合は、もともと微罪では出頭命令書(Citation)を発行しておしまい、というケースが多かったけど新型コロナ以降は市当局が「逮捕するな」と警察に通達を出している。