科学的方法とは？わかりやすく解説

科学的方法（かがくてきほうほう、英: scientific method）は、知識を獲得するための経験的方法である。科学的手法、科学的検証などとも呼ばれている。

科学的方法の意味と概略

科学的方法とは、断片化された散在している雑情報あるいは、「新たに実験や観測をする必要がある未解明な対象」に関連性、法則を見出し、立証するための体系的方法である。

「科学的」という言葉についての辞書的定義として、国語辞典（デジタル大辞泉）には以下のように記載されている^[1]。

考え方や行動のしかたが、論理的、実証的で、系統立っているさま。
特に自然科学の方法に合っているさま。

「すべてのアメリカ人のための科学」では、調査、論証、あるいはそれらの手法が、科学的であるために必要な要件として、証拠、推論過程、結論に関するいくつかの特徴、及び調査手段におけるいくつかの特徴（仮説－検証型等）に関して、ある程度の共通理解が存在する、とされた^[2]。

しかしながら科学的方法に関する具体的な指針については、さまざまな時代の、様々な者が発言を行っている。「発言者の立場」に基づいて大別すると、科学者、技術者などの科学サイドの人間によるものと、哲学者、社会学者、教育学者等の社会的サイドの人間によるものがあり、概して両者の間には温度差がある^[3]。

科学が満たす「一定の基準とはそもそも何か」という問題は諸論があるが、大まかにいえば、その推論過程において「適切な証拠から、適切な推論過程によって推論されていること」^[4]、「仮説検証型」^[4]の調査プロセスが要求される。また、扱う対象が、測定、定量化が可能であることが望まれることも多い。

古典的な基本

放送大学の濱田嘉昭によれば、科学的な方法の古典的な基本は、17世紀にデカルトが『方法序説』で示した以下の原則である^[5]^[6]。

明瞭判明の規則	明らかに真理と認められたものだけを判断の基準とする。
要素分解	解決可能な要素に分解して考察する。
具体から抽象へ	単純なものから複雑なものへと順番に認識をすすめる。
総合	見落としがないことを十分に確かめて、完全な列挙と再構成により全体を再構成する。

これは17世紀に提示されたものであるが「現在でも研究論文を書きあげる指針として十分光を放つものである」という。

現代における科学的な方法

「科学的方法」についての言及は、さまざまなものがある^{[注釈 1]}。

2009年の『高等学校学習指導要領解説理科編』119頁には、「理科課題研究の目的」として、以下のような解説がなされている ^[7]。

「科学に関する課題を設定し」とあるのは，自然や科学技術に関して観察，実験などの探究的な活動を通じて習得した探究の方法を用いることにより解決できる課題を設定することを示している。

「観察，実験などを通して研究を行い」とあるのは，仮説の設定，実験の計画，実験による検証，実験データの分析・解釈，推論など探究の方法にしたがって研究を進めることを示している。

「科学的に探究する能力と態度を育てる」とあるのは，探究の方法を用いて研究を行う過程で，設定した課題を科学的に解決する方法を見いだす能力と態度を育成することを示している。

「創造性の基礎を培う」とあるのは，研究の実施や報告書の作成を通して，研究においては独自性が重要であることに気付かせ，創造的な思考力を養うことを示している。そのためには，文献等の調査，研究に必要な器具や装置の製作などについて，適切な助言が必要である。

上記の「探究の方法」、「科学的に探究する能力と態度」等の要件定義から、科学的な方法（「探究」）の特徴に関する規定がある程度読み取れる。

世界各国を見渡すと^[8]、一つとしてアメリカ科学振興協会が1989年に提出した報告書、「すべてのアメリカ人の科学」^[2]^{[注釈 2]}がある。

「すべてのアメリカ人の科学」(SFAA)は、草記、審査、承認に関して、さまざまな領域から、世界的に権威を認められた者が多数関わっている点に特徴がある^[2]。F. James Rutherfordは、（その文書の編纂に携わったひとりだが）同文書について、「（いろいろありはしたが）結果としては「多くの地域の科学者たちは、“尊敬されるメンバーが行った表明として”受け入れてくれた」と主張した^[2]。だが、この文書には多くの免責事項が書かれている。例えば、 F. James Rutherfordは同文書の「日本向けの序文」の中で、以下のような免責事項を述べている。たとえば、同書の名前として『すべてのアメリカ人のための科学』といった、米国限定であるようなタイトルをついていることについて、「この文書の作成には、基本的に他国の科学者が参加しておらず、他国の優秀な科学者の見解が反映されていないことから、これを勝手に「すべての人のための科学」としてしまっては、他国の科学者たちがそれぞれの見解を表明するという権限を侵してしまう可能性があり、そうはしなかった」と述べている。またラザフォードは、この『すべてのアメリカ人のための科学』も、（そして、他のいかなる刊行物も）1冊では科学的リテラシーを保証するものとはならないと述べてこの冊子で提示できることがらの限度に対し一定の理解を示している。

同文書などでは、「科学的な方法の特徴は、論証過程と調査プロセスに顕著に認められる」とした^[2]^{[注釈 3]}記述がみられる。論証過程においては、以下のような記述がある。

基本的なことを言えば、様々な科学的学問は次のような点では似通っている。すなわち、証拠に依拠していること、仮説と理論を使用しているということ、また用いられる論理の種類、である^[9]^[10]。とは言うものの、科学全てが同一の特徴を有しているというわけではなく、異なる点も多々ある^[9]^[10]。たとえば科学者ごとに、研究する現象、活動に取り組む姿勢、歴史的データを用いるか実験的発見を用いるのか、手法が定性的なのか定量的なのか、基本原理への依拠の程度、他の科学の所見をどの程度重視するか、などの点では大きく異なっている^[9]^[10]。

上記の記述において、「証拠に依拠していること、仮説と理論を使用しているということ、また用いられる論理の種類に共通性があること」が、科学的学問の間で、特に類似性の高い部分としている^[10]。

また、一般に、論理の妥当性に関しては以下の点が必要である^[4]。

「適切な証拠への依存」
「明確な結論の存在」
「証拠と結論を結ぶ適切な推論過程の存在」

これらについて、以下のような記述が本文^[10]に記載されている（下線は本記事の執筆者による）。

科学は証拠を要求する遅かれ早かれ，科学的主張の妥当性は現象を観察することで解決される。したがって，科学者は正確なデータを収集することに努力する。

仮説や理論の形成にはあらゆる種類の想像力や思考力が利用されるが，遅かれ早かれ，どのような科学的主張であっても論理的推論の原則に合致しなければならない。すなわち、推論，実証，常識に関する一定規準を適用することで，主張の有効性は試されなければならないのである。科学者は，しばしば特定の証拠の価値や特定の想定の妥当性について見解が異なるため，正当化すべき結論に関する見解が異なることがある。しかし，証拠と想定を結論に結びつけるための論理的推論の原則については，科学者の見解は一致する傾向にある。

これに加え、以下のようなことも述べている。

論理と証拠に関する詳細な調査は必要なものではあるが，これだけでは科学の発展にとって十分ではない。科学的概念は，データや実施された多くの分析から自動的に発生するわけではない。

調査プロセスにおいても、いくつかの免責事項がつくが、以下のような記述がある。

科学者が常に従っているような決まった一連の手順などというものは無い^[9]^[10]。また、“誤ることなく科学的知識に導いてくれる単一の道筋”などというものも無い^[9]^[10]。それでも科学には、探究モデルとして他とは異なった性質をもたらしているような、何らかの特徴がある^[9]^[10]。

現代の科学的な方法においては、一つの現象を説明する場合に、"「なぜそうなるのか」という哲学的な問題は棚上し、「その現象がどのようにふるまうのか」に着眼する傾向がある^[11]"とファインマンは指摘した。この意味で、科学的な方法においては結論の提示は現実の物理現象、社会現象などを定性的/定量的に説明する具体的なモデル^[12]を提示する形で行われる傾向がある^[5]。

また、多くの科学的理論の成否は実験によって判定されるが、理論の成否は「シロ」か「クロ」というような幼稚な二元論で判定されるのではなく、信頼性や有意性、当てはまりのよさといった統計的な尺度で良し悪しを判定され、その値は良し悪しはスペクトラム状(無段階、連続的)に広がっている。従って、現代の科学的手法で得られた結果や結論に対しては、当てはまりの良さや有意性を表す数字がつけられることが多い。また、同じ事柄に関して複数の等価でない理論が並立することもあり、それぞれの理論は別々の結果を算出することもよくある。そして別々の結果であっても、あてはまりのよさが同程度であったとした場合には「同程度に正しい」ことになる。

結論の成否は証拠となる事実の取得方法、処理方法、推論過程の適切さの判断となる^[4]。しかしながらこの問題は評価の問題を含む。また分野間、研究者間によってデータの処理方法や実験的所見、定性的又は定量的手法等が異なる^[2]。「適切さ」の問題について、科学哲学者の戸田山和久は、^[13]は、以下のように述べている。

"科学が扱っているのはすべて理論であって、その中により良い理論と、あまり良くない理論がある。科学の目的は、理論をほんの少しでもより良いものにしていくことだ"(^[13]P23）

即ち、不適切（黒）と適切（白）の間はスパッと二分できるものではなく、スペクトラム状に広がっているものだという考え方である。戸田山によると、「“より”良い仮説や理論の基準」とは、以下のようなものとしている(^[13]P39)。

より多くの新奇な予言を出してそれを当てることができる。
アドホック（その場しのぎ）の仮定や正体不明・原因不明の要素をなるべく含まない。
すでに分かっているより多くのことがらを、できるだけたくさん／できるだけ同じ仕方で説明してくれる。

また、戸田山は、科学的良い理論には次の特徴があると述べている(^[13]P148)。

実り豊かである。未知の現象がたくさん予言され、当たってきたなど。
守備範囲が広い。予言されたり説明されたりする現象が広範囲に及ぶ。
一定の実績のある別の理論を内包していること。(ex:量子力学は、エーレンフェストの定理等により古典力学を含む)
シンプルであること。

さらに、科学的によくない理論としては、「反証可能性」という観点から^{[注釈 1]}以下のような特徴があるともしている(^[13]P140)。

仮説を曖昧な言葉で述べる。あるいはほとんど反証例のありえない、いつでも成り立つような仕方で与えることで、反証条件をはっきり与えない。
仮説の反証条件ははっきり与えられていても、反証条件を満たす反証例が現れたときにアドホックな仮説を付けたしたりして仮説をいつまでも守るようなことを行う。

但し、戸田山は以下のようにも述べている、

反証例から仮説を守るため、補助仮説が置かれるときに、ちゃんとした科学では補助仮説の置き方が合理的で、疑似科学はそうでないという特徴がある（(^[13]P148 より引用)）。

さらに、戸田山は、「アドホックな仮説を継ぎ足すこと」については、特に実りの多い理論に対して少数の反証例から一つの理論を全否定することは通常はないと指摘していて、アドホックな仮説を継ぎ足すことが結果としてよかった例も多数あることにも具体例を挙げて言及している（アドホックな仮説を継ぎ足すことが失敗に終わった事例にも言及している）。

操作主義的定義

科学哲学者の戸田山和久は、科学を示す用語は、大きく、以下のA群,B群の2種類に分けられると述べている^[13]。操作主義的定義の立場に立つと、科学的方法とは、以下のB群の言葉達によって特徴づけられる方法論と言うことも出来る。

A群：科学が取り扱う現象や対象,知見そのものを表すための言葉
- （例）DNA,RNA,電磁誘導,…
B群:科学的な方法論の特徴付に供される言葉
- （例）仮説,検証,推論過程,アブダクション,…

即ち、B群で特徴づけられるような言葉や手法を用いて、A群で特徴づけられることについて、「予測」すること、「技術的な応用を与えること」、そして「説明」することが科学的方法の特徴づけとする立場である。「説明」について、戸田山は、(^[13]P73)以下のように分類している。

原因（因果関係）を突き止めること
一般的・普遍的な仮説／理論から、より特殊な仮説／理論を導くこと
正体(メカニズム)を突き止めること

科学の厳密性

現在、科学が再現性の危機に瀕し、科学界が新たな方法論を模索する中、統計学と人工知能の自然言語処理や機械学習の技術を組み合わせて、現代における科学的方法の厳密性を評価する手法も生み出されている^[14]。

対象

科学的な方法が取り扱い得る対象については、科学者の間でしばしば見解の相違が見られる。一般に「科学的な方法」の適用範囲については人によって意見が異なり、対象を限定する議論は極めて難しい。その理由は、個々の研究者間で証拠の妥当性や扱う対象の価値判断が異なるためである^[2]^[5]^[15]。

科学の扱う対象について、以下の論点がある

^[2]^[4]^[16]^[17]^[18]^[19]^[20]^[21]

^[22]^[15]。

論じる対象を何らかの方法で測定できるか否か?^[要出典]
定量性が担保出来るか否か？^[要出典]
再現性があるか否か？^[要出典]
統計的な有意性を論じられるか否か?^[要出典]
推論過程に論理的な整合性があるか否か（自己矛盾が無いか）?^[要出典]

測定可能性、測定原理の存在

科学史研究者の岡本拓司（東京大学）の文章には「測れるもののみが科学の対象」と書かれていた^[23]。これはポアンカレが述べた言葉の引用と思われる。同様の趣旨で、「測る」というとがやや難しくなる社会科学の領域でも概念操作化」 (Operationalization) [26]^[24]^[25]という言葉が用いられる。「概念操作化」とは、リサーチクエスチョン（研究を通じて明らかにしたい問いのこと）を、「実験」や「調査」を通じて検証可能なレベルにブレイクダウンする過程のことである。このように理系文系の両方において、「測定原理の存在」/「概念操作化」が重視されていることから判るよう、科学的な方法を論じるうえでオーソドックスな考え方であることが想到されよう。

測れることを保証するためには、適切な測定手段が必要である^[17]^[24]^[26]。適切な測定手段の実現には、正しい測定原理と、それを実現する適切な装置構成、適切な精度評価が必要である^[要出典]。物理学や化学では、測定原理の妥当性の評価が比較的行いやすい対象が研究対象になるが、それでも最先端では、測定原理の妥当性や、装置構成の妥当性に対し議論が生じる場合もある（#証拠の節も参照のこと）。

科学には「理論物理学」のような理論分野も存在するが、理論分野においても検証手段としての実験方法の提示は、極めて重要である^[要出典]。但し、検証手段は必ずしも、現在の技術で実現できるものである必要はない。例えば、量子力学における不確定性の概念は、ハイゼンベルクが提案した顕微鏡による電子の位置と運動量の測定実験のように、思考実験による検証に端を発する^[要出典]。さらに、特に工学においては複素電界のような、「実在しない量」（測定することが不可能な量）が当たり前のように使われている場合もある^[27]。複素電界自体の定義は光学の初歩中の初歩であるため専門書に解説を委ねるが、このような実在しない“物理”量を作ることで、光の干渉等の一部の物理現象が数学的に簡単に取り扱えるようになる。このような場合には、「測定できない」という意味で実在しない量も科学的理論として認められる場合もある。尚、電磁ポテンシャルのように、元々は「実在しない量」（数学的な便宜のために導入された“物理”量）と思われていたものが、外村彰によってアハラノフ＝ボーム効果の実証がなされたことによって「実は実在する量であった」ことが後に判明したというケースもある。

→「電磁ポテンシャル」および「アハラノフ＝ボーム効果」も参照

定量性

測定結果は、定量的であるほうがより価値が高いとされることが多い。但し、キャベンディッシュの実験（クーロンの法則に関する）や、ホイートストーンブリッジ等のNull Checkのほうが、価値が高い、とされる場合もある。また、結果の定量的な予測が出来ない理論は、価値が低く見られる傾向がある。但し、系が複雑な場合には、短時間で定性的な傾向がつかめることや、倍・半分以上の予測のずれが許容される場合もある^[要出典]（シンプルさとのトレードオフが存在する）。

ここ数十年、医療や食品の分野で、証拠に基づいていない説・言説は不適切、と見なされるようになってきている。特に、医療・医薬品の効果に関しては、疫学的な観察や治療結果の統計学による比較に根拠を求める根拠に基づく医療が重視されるようになってきている。また、食品、製品の安全性についても、定量的なデータに基づいた監査が強化される傾向にある^[21]（FDA等のWeb Site^{[要文献特定詳細情報]}を参照のこと）。このように、定量的なデータに基づくことを重視する立場を、エビデンスベースという。^[要出典]但し、黎明期の理論や、あたりをつけるための理論に関しては、実際のデータとは一致しない仮定を多数含んだとしても予測力が一定水準あれば、仮説として一定の価値を得ることもある。

一方で、いくつかの問題は、定量化が難しい場合もある^{[注釈 4]}。このような問題に関しても、数字を用いて考えるほうがより科学的だ、と述べる人々もいる。実際に調査するのが難しいようなとらえどころのない量であっても、いくつかの手掛かりを元に論理的に推論し、概算すること（フェルミ推定）は、科学的な思考の基本である^[28]^[29]^[30]と言われている。

文系の問題には「都市化が進むと治安が悪化するか？」、「結婚すると幸せになるか？」のような定量化が困難な問題が多いとされる ^[24]^[25]。但し、「測定可能性、測定原理の存在」において紹介した概念操作化」 (Operationalization) ^[24]^[25]という考え方により、リサーチクエスチョン（研究を通じて明らかにしたい問いのこと）を、「実験」や「調査」を通じて検証可能なレベルにブレイクダウンすることができる場合もある。実際には政治、経済、司法等においても、既に存在する統計データ（白書、売上データ等）から、四則演算および並べ替え・書き写しだけの操作で、データを、仮説検証に適した形に変更することができる問題は多数ある^[31]^[32]。 ^[31]^[32]。この種の問題の詳細は、本記事後述の「#日常の俗説と科学的方法」の節で述べる。

再現性

論じる対象を測定することが可能であったとして、今度は、再現性が問題になる。再現性については、例えば、物理学者中谷宇吉郎（1900-1962）は1958年の著書において「科学は再現の可能な問題に適用範囲が限られる」と述べた^[16]^{[注釈 5]}。19世紀の科学では、文字通りの「再現性」が重視されていた。

一方、筑波大学教授・宮島龍興が日本教育工学振興会提言で、現代では（厳密な意味での）再現性や定量化が難しい対象も科学の対象となってきている^[18]、と指摘した。この背景には、（20世紀、なかでも20世紀後半における）推測統計学の導入により従来の記述統計をベースとした統計処理だけでは扱い切れなかった対象が定量的に考察しえるようになったことがある。

例えば医学・薬学・心理学・経済学などは、根本的に複雑性や複合性を内包していて、再現性を得にくい生体や社会そのものを扱う^[19]。（19世紀までの科学の水準ではこれをうまく扱えなかったが）現代の科学においてはこれらも、科学的な研究対象である。つまり、このような「古典的な意味での再現性が無い分野についても、統計学の手法を用いて、科学的な方法の対象とする」という立場が、現在の科学的方法の主流である。この論点については、次節にて述べる。

統計的な有意性

科学的な結論であるためには、適切な統計手法を用いて適切に「有意な違い」があることを示さなければならないとよく言われる。 ^[13], ^[33], ^[34] ^[35], ^[36], ^[37], ^[38]。従って科学的な方法の対象であるためには、適切な統計手段が行使し得る対象である必要がある。

意味のある統計手段を行使するためには、少なくとも以下が必要である ^[13],^[33],^[34],^[35],^[36],^[37],^[38]。

適切なグループ分けの設定
適切な方法で実験条件を振る/キザむこと（所謂「条件出し」の問題）
適切な統計手法/統計検定量の採用
統計的な有意差を得るために必要な実験例数の設定
統計的な相関、差異の適切な解釈
実験データを適切な可視化手段にて可視化されること

また、以下が満たされていることが望ましいとされる。

適切な可視化手段

これらについては、後述の「実験のデザインと統計学的視点」の項にて詳述する。

論理的整合性

（下記の「科学的方法における論証」も参照のこと。）

論理的整合性とは、^[4]

「根拠（証拠物件）」
「推論過程」、
「結論」

から構成された三角ロジックによるフォーメーションを持った論理構成であり、

仮に「根拠となる事実（仮定を含む）」が間違っていないとすれば、推論過程に無理がないこと
内部矛盾や循環論法が少ないこと
根拠となる事実や仮定同士の間で矛盾がないか、あるいは矛盾があっても結論を防衛しえる議論を尽くしていること

を意味する^[4]。

文科系の諸学問においては、検証、定量化が困難、あるいは、不可能な課題に取り組むことも多々ある^[15]。また、自然科学者からみれば、予測の定量性に瑕疵があると考えられる仮説が重要な学説として鎮座している場合もある^[15]。例えば、心理学、教育学などでは、測定原理の妥当性の評価が極めて難しい対象、例えば心の痛み、知能、学力等を扱う^[39]。例えば「心の痛み」というものが存在することを否定するものは極めて少数で、現代では組織運営をする上でも極めて重要な概念であり、正しい根拠に基づいた判断が要求されるものであるが、これを定量的に測定する測定原理を提案することは難しい。同様のもので、（存在するか否かが怪しいものも一部にあるが）おそらく存在するだろうと考えられ、何らかの重要な問題と関係があるものであるが、その測定原理を示し難いものは沢山ある。

このような対象に対しては、「論理的な整合性を維持しながら、適切な証拠を集めて議論をするならば科学的である」とする考え方もある^[20]。このような見解に立つと、ハリウッド映画俳優の共演関係のようなものまで科学的考察の対象と考えられることがある^[20]。このような考え方も、定量化が難しい分野においては、しかたなくではあるものの、ある程度認められた考え方である^[15]。

「論理的整合性」を吟味するにあたっては、前提としての科学的理論の合理性や、分析方法の適切さ、参考データの信頼性に最大限留意する必要がある。これらの点を欠くと、「蟻を殺すのに核兵器を使う」ような議論（集団ヒステリー）、逆効果の発生、ひいては冤罪等の最悪の結末を発生させる可能性がある^[22]。

プロセス

科学的方法のプロセスには、例えば、PDCA(plan-do-check-act cycle)や、武谷三男^[40]^[41] の「三段階論」などがある。

PDCA

PDCA流に考えると、科学的な方法のプロセスは、おおざっぱにいえば「仮説の構築」と「その検証」の延々たる繰り返しとみなせる^[15]。

「仮説をたて、検証し、次の計画に反映する」思考様式は広く一般化されており、プロジェクトマネジメントにおいては、PDCAサイクルという名前で、一般のプロジェクトの管理に加え、研究開発や国の大型研究プロジェクト等の大局的な管理において基本となる考え方として受け入れられている^[42]。見方を変えると、科学的な方法のプロセスは、多重の入れ子構造となったPDCAサイクルと見ることもできる^{[注釈 6]}。

科学的方法のプロセスを具体的にしたものの、一例を以下に示す^[2]^[5]^[43]^[44]^[26] ^[45]。細かい説明は、文献によって異なるが、一般論としては問題発見から結論の公表までのプロセスに以下のような要素が含まれると考えてよい。

先行研究のリサーチ：何が分かっていないのかを明らかにし、リサーチクエスチョンの抽出や仮説の構築の手がかりを得るために自分の知りたいことを解明するために行う文献調査のこと。必要に応じ、有効な手法や、自分の結果と比較、参照する上で有益なデータがないかを調べる。
仮説の構築：先行研究のリサーチ、場合によっては以前の予備実験の結果等を再評価すことでリサーチクエスチョンを明確化し、これを検証可能な命題（仮説）に落とし込む
実験の計画・準備：仮説の具体的な検証方法、検証計画を立案し、実際の実験の準備を行う。
予備実験、基礎検討及びその解析：リサーチクエスチョンの抽出や仮説の構築、モデルの構築、オーダーエスティメーション、実験の問題点などの評価、最適条件の探索のために行う実験および評価・解析、理論的検討等。
解析、整理：実験のデータを、処理、整理することで、仮説との論理的な関係を明確にする。
実証実験 :仮説がおおむね正しいことがわかった段階で行う、仕上げ的な実験。Nを稼ぐことにより信頼性を上げることや、デモンストレーションを前提とする。
論文執筆、公表 :研究の結論を、すでに得たデータや、理論的な考察に基づき論理的に立証したうえで、その過程を公知化する。

ここで、リサーチクエスチョンとは、研究全体を貫く「問い」のことである。言い換えれば、「明らかにしたいこと」そのものである。

大学教養課程未満では教育課程では正則的なループを想定した課題が与えられることが多い。つまり(1)-(6)までのループを何度か繰り返したあと、(7)に至る、といった極めてオーソドックスな流れが想定されている。例えば2007年前後に出版されている文部科学省高等学校検定教科書の課題研究の欄や、学部レベルの学生実験の教科書^[26]には概ね「(1)-(6)までのループを何度か繰り返したあと、(7)に至ると」ことを勧める記述がある。

プロの研究者のレベルにおいても、一つ一つの行動は、概ね上の要素に還元できる^[43]。しかし、プロのレベルは、試行錯誤が迷走する可能性の高いレベルの高いテーマを扱うことが多いことや、いくつかの仮説を並行してテストできるようなスケジュールを組むこと、いくつかの項目を同時並行的に行うが多いため、変則的になってくる。

また、プロの研究者のレベルにおいては、論文では、IMRAD型のように、あたかも「まず先に解答を思いえがき、それからそれをささえる事実をさがし始めた」かのように記載するが、現実には検証よりもむしろ仮説構築に労力を割いている。単なる検証であれば、学生やテクニシャンに任せている場合も多い。

研究者にとっては、仮説構築のプロセスこそ重要であるが、この部分については、統一的な見解はなく、散逸的、専門的（必ずしも全読者に必要とは限らない）であるため、「#現実の研究プロセス」の節において後述する。

武谷三男の「三段階論」

理論物理学者の武谷三男は、科学理論の進展は以下の現象論、実態論、本質論の三段階を経ると考えた^[40]^[41]。

現象論：個々の事象の知識を集める段階。
実体論：少数の実験結果に対して当てはまりのよい理論を作る段階。
本質論：統一的な視座から物事を説明する段階。

三段階論は、主に科学の一つの領域の進展を考察したものであるが、現象論的な知識が十分ではなくて直ちにその原因を思惟するとき形而上学に陥るという点においてなど、個々の一研究（一つの論文レベル）についても学ぶところが多い考え方である。

論証

→「IMRAD」も参照

論証が科学的であるためには、少なくとも論理的であることが求められる^[4]。一般に、科学の領域における「論理的」という概念を説明するモデルとしては三角ロジック（論理の三要素)^[4]^[46]^[47] が有力である^[46]^[47]。三角ロジックとは、以下に示す三つの要素からなる論法である。

「主張（結論）」
「根拠となる事実（証拠；証拠物件）」
「根拠となる事実から主張を演繹/帰納するための推論過程（論拠）」

三角ロジックは、スティーヴン・トゥールミンによるトゥールミンモデル(en:Stephen Toulmin#The Toulmin Model of Argument）の簡略化であると考えられている^[46]。

これらの言葉の意味を簡単に例解する。例えば、推理小説においては、証拠、証言を根拠にして推理が進み、そして結論が導かれる。「犯人はA氏だ」というのが「主張（結論）」である。「根拠となる事実」というのは、例えば「血のついたナイフ」とか「ドアについた指紋」といった、証拠物件自体それぞれや、「何時に駅でA氏をみた」といった証言自体それぞれのことである。推理小説では、証拠物件の存在や状況、証言から何らかの推理を行い、「犯人はA氏だ」ということを立証するための論を述べるが、これが「推論過程（論拠）」である。

科学的な論証においては、上記の三要素に関して、相応の適切さが求められ、それが適切であることが科学的な方法を特徴づけている。この意味において、科学的な論証の顕著な特徴としては「適切な証拠への依存」、「明確な結論の存在」、「証拠と結論を結ぶ適切な推論過程の存在」の三つが認められる^[4] ^[2]。

結論

結論は、明確でなければならない。例えば、「あなたは弱気な反面、強気すぎるところもあり…」といったように、どんな人（どんな対象）に対しても当てはまるような結論は望ましくないとされる^[13]。結論の明確さに関連する概念としては、反証可能性がある。

一方で、現代の科学（特に工学）では「合わせこみ」といわれる手法がある。これは、シミュレーションと過去の実験データを人為的に〝よく一致させる”ためにいくつかのパラメータを制御する手法 ^[48]である。別の側面から見れば、合わせこみは、どのような実験結果でも取り込めるほどパラメータが多い点で不明確であるが、短い時間で仕様を満足するモノを開発しなければいけない分野（工学、工業等）では非常に強力な手法/考え方である。

無論、この手法が「基礎科学」にまで広がってくることについては苦言を呈するものもいる。例えば、リース・モーリン博士は、現在の最前線における物理学の理論が、「どのような実験結果でも取り込めるほどパラメータが多い」ことを指摘したうえで、反証可能性を軽視している傾向を、「物理学の迷走」と断じている^[49]。実際、モーリン博士が指摘するように、最近の素粒子物理、量子情報、物性理論等は極めて数学に近い様相を呈しているため反証可能性の原則を逸脱していることはしばし指摘される^{[注釈 7]}。また、特に、萌芽的な理論においては、実験がどんな結果を出してもそれを取り込めてしまうほどパラメータが多く、しかもそのパラメータの物理的な意味が不明確であることもしばしば指摘される。現在でも、このことを理由として権威ある雑誌への掲載が拒まれることがあるとされる^[50]。但し、この傾向も最近では現実的な方向に、つまり反証可能性に偏重しない方向にシフトしつつある^[50]。

また、結論はシンプルでなければならない。結論のシンプルさに関しては、以下の「オッカムの剃刀」という原則がある。

必要以上に多くの実体を仮定するべきでない。
現象を同程度うまく説明する仮説があるなら、より単純な方を選ぶべきである。

オッカムの剃刀は、「並立する幾つかの仮説の中から、ある一つの仮説を選択する方法」の一つとして現代の科学者において、理念的な面で受け入れられているが、あまり教条的に受け入れてしまってはいけない事柄である。その理由としては、

説明に不必要であることは、存在しないことを含意しない^{[注釈 8]}。
何が説明に必要であるかは必ずしも明確ではない。

などの問題点がありえるからである。

証拠

科学は証拠となる事実（生データ/証拠物件）を要求する。科学者は何らかの「真偽判定」を行う場合に「どういった証拠が結論を支持し得るか」ということを考える^[2]。このような思考は一般に、科学教育において優先的に身に付けさせるべきことと考えられている^[2]^[8]。この際まず、仮説を支持する証拠と仮説の反証となる証拠を明確にする必要がある^[2]。さらに、結論を立証、あるいは反証するために必要な実験を計画する必要がある。

一般に、「仮説の反証となる証拠の存在」は、必ずしも反証となる証拠を提示された理論の否定にはつながらない（後述の「反証可能性について」を参照）^[2]が、特に実験家は、既存の理論の反証となりそうな実験を好んでターゲットにするという傾向があり、そのような反証例を基に、理論が洗練させられていく^[51]。

証拠となる事実の取得（測定）の段階では、適切な測定方法の存在が重要となる。 適切な測定方法の実現には、正しい測定原理と、それを実現する適切な装置構成、適切な精度評価が必要である^[17]^[26]。測定原理の妥当性は、直接測定（例えば自分の身長を直接身長計で測る場合）の場合にはあまりその重要性が意識されないが、間接測定（例えば三角測量で山の高さを測る場合）には、その妥当性（本当にその方法で山の高さが測れるのか？）が極めて重要になる。また、「何を明らかにするために何をするのか」という研究者が意識すべき重要な事柄にも密接に関係する。

物理学や化学では、測定原理の妥当性の評価が比較的行いやすい対象が研究対象になるが、それでも最先端では、測定原理の妥当性や、装置構成の妥当性に対し議論が生じる場合もある。測定原理の妥当性や、装置構成の妥当性、精度の評価はそれぞれの学問における最も本質的な議題の一つであり、それぞれの学問分野で研究されることである。

測定原理の妥当性や、装置構成の妥当性については、主に大学の学生実験で重点的に指導される^[26]。逆にいえば、測定原理の妥当性と装置構成の妥当性について学ぶことが学生実験の一つの重要な意義である^[26]。典型的な例としては、ボルタ振子の実験等がある。この実験では、振り子の周期と重力加速度の関係を理論的に導いたうえで振り子の周期を測定することで、重力加速度を間接的に測定する。

測定原理、装置構成、精度の妥当性の評価を行うことを目的とした論文以外の論文では、博士論文等のような大著の論文を除き、装置構成の妥当性や装置構成の詳細、測定原理の妥当性については、軽く触れるにとどめるのが普通である。このようになった原因の一つには、知的財産権に関する戦略や、二重投稿と解釈されることへの懸念などがある。論文に実験方法詳しく書いた場合で、既に実験方法の妥当性を示すために提出した論文（理論や装置に関する論文）や、特許が存在した場合には、二重投稿と処断される可能性がある。また、論文に実験装置の構成について詳しく書きすぎると、実験の成功に関して必須でない部分に関しても装置構成に関する新規性が喪失されることになる場合があり、後に特許として権利化する場合に支障となる可能性が出てくる。

また、最近では実験ツールのキット化が進んでおり、間接測定であっても、妥当性、測定精度等の基礎評価は、実験装置、実験キットのメーカーが保証してくれていて、実験者が意識しなくても済むようになってきつつあるため、測定原理や測定精度について、意識の低い研究者がいることも指摘される^[52]。

証拠となる事実の整理（解析）、あるいは実証実験のように示すべき命題が明確になり、結論の有意性の問題に逢着段階においては「データの解釈方法」「データの記録または報告」「データの重みづけ」等、適切なデータの取得、適切なデータの処理に関する問題が重要となる^[2]。「適切」とは、ここでは、「どのような手順でデータを取得、解析すれば偏りが少ないと認められるか」を指す^[2]。この問題は概して非常に難しく、有意性の問題といわれる。有意性の判断は先述のように分野によってどこまで容認するかに温度差があるが、この判定基準については統計学特に実験計画法^{[注釈 9]} の分野の研究者が研究している事柄である。有意性の判定に関して、実験計画法では以下の3条件を原則としている（実験計画法の項目を参照のこと）。

局所管理化：影響を調べる要因以外のすべての要因を可能な限り一定にする。
反復：実験ごとの偶然のバラツキ（誤差）の影響を除くために同条件で反復する。
無作為化（ランダム化）：以上でも制御できない可能性のある要因の影響を除き、偏りを小さくするために条件を無作為化する。

また、「科学的であること」の要件として必須であるとまでは言えないものの「どのようなデータの収得順序、収得方法、統計処理方法でデータの本性をえぐりだすことができるのか」という問題も重要である。この問題の系統だった研究はデータマイニングの分野で研究されている。この問題に対してカリフォルニア大学サンタバーバラ校教授中村修二が、「データに文脈性を持たせることの重要性」を説いている^[53]。データに文脈性を持たせ、一見意味のない雑情報に見えるものの中から意味のある情報を取り出すためには、セレンディピティーや磨かれたセンス、場合によっては運が要求される問題でもある。センスを磨くためには実験ノートの有機的な活用など、実験をよく振り返ることに加え、関連するよい論文に目を通し発見の過程を分析する必要がある。

推論過程

→「IMRAD」も参照

結論と、実験事実の間には何らかのギャップがあることが通常であり、その間を結ぶ考察が必要となる。すなわち、証拠と結論を結ぶ適切な推論過程が考察である。

推論過程を、一つの観点から分類すると、直接証明法と間接証明法に分類できる。

直接証明法:証明したい命題を直接的に立証する
間接証明法：証明したい命題と等価な命題（例えば対偶や背理法）を示す。

推論過程を、別の観点から分類すると、「演繹」と「演繹でない推論」に分類される(^[13]PP88-92）。

演繹とは、一般的原理として認知された法則、あるいはもっともらしいと信じられているものに基づいて、いくつかの仮定をおき、具体的なモデルを考え、それに基づいて現象を予測する手法である。
演繹でない推論(非演繹的な推論には、帰納、投射、類比、アブダクションがある。

帰納は、個別の例から一般性を導くもの。
投射はこれまでの個別例ではAの性質だったから、次のケースもAだろうという推論。
類比は、二つの事柄が似ていることから、それ以外の点でも似ているだろうという推論。
アブダクションは、たとえば今まで分かっていたことだけからではすぐに説明ができない場合に、説明を可能にするような新しい仮説を置いて、その仮説は正しいだろうと考えるような推論のこと。

ここで、アブダクションについては、あまり聞きなれない言葉であるため簡単に補足しておく。これの基本は「チャールズ・パースの仮説形成法」が基本になるとされている^[5]^[54]^[55]。パースの仮説形成法というのは、大まかに以下のような過程で“推論”する^[5]。

驚くべき現象Fが観察されている。
だが、仮説Hが真であると仮定すると、Fは当然のことになるだろう。
よって、Hは真であると考える理由がある。

いわゆる「現象論的」と言われる考察においては、このような考え方が特に好んで用いられる。また、現在において認められている理論のほとんどすべては、「多数のFを説明できるからHは正しい」といった論拠に基づいており、逆に言えば、どれだけの（多さの）Fを説明できるかがその理論の優劣を決める^[5]。このようなモデルに基づいた仮説形成法は、「必要条件と十分条件の混同」という点においてデカルトの枠組みを若干逸脱しているが、特に「情報量が増える」^[13]こともあり、科学的な論証の推論過程においてよく用いられる^[54]。

演繹においては、「正しい前提に基づけば必ず正しい結論が得られる」という意味で真理が保存される一方、情報量は増えない。一方、非演繹的論法は、「蓋然的」、すなわち、「必然的ではない、結論が必ず正しいとは限らない」という特徴があり、一方で「情報量が増える」ということがある。科学者は、両者の良しあしを使い分け、試行錯誤の過程において、例えば「少数の現象から、それらを統一的に説明する仮説を帰納し、その仮説からより多くの現象を予測する」といったように、これらの論法を組み合わせる^[56]。

考察を行うに当たっては、必要に応じて、何らかの理論や既に公表された他の実験データなどを援用し、証拠を補完する必要がある場合もある。しかし、ある程度信頼を得ている理論ですら完全な証拠の補完ができず、いくつかの推定が根拠の中に混ざる場合や、推論過程自体に粗が存在する場合もある。一般に、「どのような推論過程」が適切であるのかは、その研究のオリジナリティーにかかわる部分であり、特に研究レベルでは極めて難しい。

実際、物理の重要な概念を創造した論文は、たいていは隙がある論理展開をしていると指摘される^[51]^[50]。通常の学部レベルで想像される緻密な理論展開は、創造的理論を受けてその内容を精密化したり整理する過程で生じる^[50]。

このように科学においては論理性を重視する一方で、現実の対象を扱っていることによる若干の論理の飛躍を認めざるを得ない側面がある。一般に、現実の対象を扱う学問では多少飛躍を許してでも学問を進めたほうが、後になってみて分かることが多いと信じられている^[57]。反面、この意味では「科学的な方法によって得られた結論」であるというだけでは「科学的に正しいか否か」「現実的に正しいか否か」「現実的に役立つか否か」は必ずしも一致するとは限らない^[58]。問題は、「ギャップを認めつつも推論を進め、意味のある仮説を提唱し、それを広め、集団で検証する」という建設的な立場の重要性にある^[59]^[51]^[50]。

論理の飛躍としては、

法則の適用範囲を勝手に広げる
数学上の制約を無視
実態とは合わない近似
必要条件と十分条件の意図的な混同（チャールズ・パースの仮説形成法）
強引なモデル化
強引な仮定を認める

などがある^[51]^[50]。それぞれそういうものを認めざるを得ない相応の理由がある。

では、どこまでの飛躍やあいまいさを容認するのか。これは非常に難しい問題であり「真実への到達」を考えるならば安易に結論できない問題である。だが標語的に「仮説は失敗を恐れずに大胆に立てろ」といわれるように、一般に建設的な立場においては「真実に到達する」ためには「いろいろな“とるに足る”論」があったほうがよいと考えられている^[50]^[57]。

最終的には「どれだけ沢山の自然現象を説明できるか」が科学理論の良し悪しを決めるため、裁判における証拠の鑑定や、法律制定の基礎調査等のような「真実性」の重要性が圧倒的に高いケースを除き、この問題は、過度に深刻に考える必要性は乏しい。どこまでの論理の飛躍を認めるかについては「研究者のタイプ論」から説明されることもある。研究者のタイプはしばし（呼び方は別として）「先頭突撃型」と「地固め型」^[50]^[57]に分類され、前者の場合は文字どおり、多少乱雑かもしれない実験や推論をする反面、重要な発見をする。逆に地固め型は過去の研究の“粗”の部分を補正する。

この論理の飛躍に関しては、「論文として世に出す価値を認めるか否か」に話を限局すれば節度の問題となっていて、ピア・レビューの過程で、前例やその報告の面白さなどを踏まえながら決まっていくものである^[50]。ピア・レビューで出来ることは、せいぜいその程度のことであり過度な期待はいけない。この時点におけるレフェリーとの応酬に勝つためには当然、過去の論文を多く読みその論法を見ておく必要がある。また粗がある議論があって、それを部分的にでも修正することができるのならば（それを論理的に立証できる限り）それは論文を書くチャンスである。

実験のデザインと統計学的視点

科学的な実験においては、実験のデザインが重要である。実験のデザインというのは、ここでは、

どのような測定手段を用いて
どのように測定対象をグループ分けし、

それぞれのグループにおいて、

どのような設定/測定条件において（実験条件の振り方,キザみ方を含む）
どのような順番で
どのような数サンプル数だけ測定し、

得られた結果を

どのような手段で可視化/比較/統計的に解析するか

を指す。実際の論文において、IMRAD型の論文であれば「材料と方法」等といったタイトルの節があるが、「材料と方法」欄に「実験のデザイン」という項目が設けられていることがある。調査や研究が科学的であるためには、実験のデザインが妥当であること、実験のデザインが適切に（論文中に）開示されていることが重要である。

うち、「どのような測定手段」の部分については、測定原理や概念操作化それぞれの専門分野で考えられる分野個別的な問題であり、本記事のスコープから外れるため説明の対象外とする。但し、「同じ」ものを測る代替手段がいくつか存在する場合にはいくつかの測定手法を並行して用いることが望ましい等といった基本原則は存在する^{[注釈 10]}。

それ以外は、統計的な観点を濃厚に含む。意味のある統計手段を行使するためには、少なくとも以下が必要である ^[13],^[33],^[34],^[35],^[36],^[37],^[38]。

適切なグループ分けの設定
適切な方法で実験条件を振る/キザむこと（所謂「条件出し」の問題）
適切な統計手法/検定統計量/検定手法の採用
統計的な有意差を得るために必要な実験例数の設定
統計的な相関、差異の適切な解釈
実験データを適切な可視化手段にて可視化されること

本節では、まず、「実験デザインの例」を例示した上で、上記それぞれの観点について簡単に説明する。

実験デザインの例

論文においては本来このような実験条件の振り方キザみ方や、実験データの解析/処理の仕方を（専ら統計的な観点から）が読者にわかるように情報提供が行われなければならない。以下、「実験のデザイン」の典型的な例を挙げて例解する。

<<グループ間の差の検定の例>>

サンプル：「無作為に抽出された50代以上の男性100人を」
グループ分け：「酒を1日に500 mL以上飲む群と,それ以外にグループ分けし」
比較するデータ：「体重を比較し」
検定量：「2集団の平均値に差がないという帰無仮説を」
検定方法:「t検定によって検定した」

<<1因子実験の例>>

サンプル：文献1に記載のレシピ（タマゴ焼き）について、
制御因子：卵2個あたりの砂糖の量(g)を
条件の振り方(水準の設定)：10g　〜20g の間で2g刻みで振り
比較するデータ:100人の被験者に無作為に配布し、味をとてもまずい(1)〜とてもおいしい(5)の5段階で評価してもらい。
統計処理：それぞれの条件に対し被験者がつけた評点の平均値と、ばらつきを評価する。

また、評価の順序（プロトコールという意味ではない）が重要なケース、即ち、実験Aと実験Bのどちらを先に実施したかが実験結果に影響を与えかねない場合の例として

<<どちらの実験を先に行ったかによって実験結果が変わり得る場合の例>>

卵2個あたりの砂糖の量が「(a)卵2個あたり12g」と「(b)卵2個あたり18g」のどちらの場合がより美味しいかを、「食べ比べによって比較してもらう場合」

については、同じ人が評価するとして「(a)の卵焼きを先に食べた場合」と「(b)の卵焼きを先に食べた場合」で評価が変わる可能性が充分ある。このような場合、評価の順序に対する公平性を担保するために例えば、

100人の被験者をランダムにA,B,C,Dの4群に分け、

A群には(a)の卵焼きを先に食べてもらう
B群には(b)の卵焼きを先に食べてもらう
C群は2回とも(a)の卵焼きを食べてもらう
D群は2回とも(b)の卵焼きを食べてもらう

といったように評価の順番を無作為化することが必要となる。

さらに言えば、上記の実験でもC,Dはコントロール（対照群）が置かれているが、「どのような対照群を置くのか」という問題も検討する必要がある。

適切なグループ分けの設定

科学的な実験においては、被験者や、測定サンプルを適切なグループにグループ分けし、グループ内での差とグループ間での差異を検討する必要がある。 ^[13],^[33],^[34],^[35],^[36],^[37],^[38]。大ざっぱにいえば、グループ内での差（バラつき）がグループ間の差に対し充分大きければ有意な差ということであり、そうでなければ有意な差ではないということになる。このような実験の例としては、対照実験やコホート研究がある。

対照実験

グループ分けの最も簡単な例は「対照実験」といわれ実験手法であろう。「対照実験」とは、二つの状況を設定して、一つだけ条件を変え、他の条件は同じにしておくように設定された実験のことである^[13]。条件を変えてない方を「実験群」といい、変えた方を「対照群」と言う^[13]。即ち、対照実験とは、

集団/サンプル：均質な被験者の集団（例えば「風邪を引いた人達」）や均質な測定サンプルの集団を、
因子：一つの因子について（例えば「風邪薬を投与」）に関して"のみ"、
グループ分け（属性A）：因子有の群(実験群,本例では「風邪薬を投与した群」）と、因子無しの群（対象群,本例では「風邪薬を投与しなかった群」）に分けて
比較（属性B）：効果を比較する

ような1因子実験のことである。このような実験デザインによって、「特定の一つの観点や因子の“有無”が、効果の有無につながるか否か」が鑑別出来る。対照実験の結果の解釈について、科学哲学者の戸田山和久は、「四分割表」（統計学でいうところの2×2分割表^[33]の1種）という表を用いて解釈するとわかりやすいと述べている。四分割表とは、以下の表のように、縦の見出し列を「因子の有無」（原因）、横の見出し行を「効果の有無」（結果）にわけてデータを整理するための表である。このように区分することで、表は、以下の

（イ）因子有、効果有
（ロ）因子有、効果無
（ハ）因子無、効果有
（ニ）因子無、効果無

の4つのセグメントに分かれる。被験者の集団や測定サンプルの集団のうちそれぞれのセグメントに何人（何サンプル）が入るのかから、その因子の程度がある程度わかる。（実際にはきちんとした検定が必要であるが、検定をする上でもこのような考え方を知っておくと説明がしやすい。）尚、「独立性の検定」という観点からは、科学哲学者の戸田山和久は「四分割表」を「対照実験」の観点に限って説明しているが、統計学における2×2分割表は、属性A（本例では、因子の有無）、属性B（本例では効果の有無）がそれぞれ2つの階級(水準)(A1,A2,B1,B2)を持つというような問題において、属性Aと属性Bの独立性を検定するというより一般の問題を取り扱うことが出来る（属性Aが原因で、属性Bが結果である必要は必ずしもない）^[33]。さらに、属性A,Bの階級がそれぞれm,nの場合にも問題（m×n分割表の問題）は拡張可能で、この問題も「独立性の検定」の話である^[33]。

表：四分割表

	効果有	効果無
因子有	（イ）	（ロ）
因子無	（ハ）	（ニ）

例えば以下の問題を検討してみよう。

1000人の風邪の人がある薬を飲み、XX人が回復したとしよう。これに対して薬は風邪に効くと結論付けてよいか？

より正確な設定は以下のとおりである。

サンプル：「風邪を引いた人2,000人を」
グループ分け：「ある風邪薬を投与した群1,000人」と「そうでない群1,000人」とに分け
効果の測定：「2日以内に治ったか否かを評価する」

結果の例を以下の表に4例上げてみる。尚以下の（イ）〜（ニ）は四分割表のそれぞれのセグメントである。

	（イ）	（ロ）	（ハ）	（ニ）	合計
例1	999	1	1	999	2000
例2	999	1	999	1	2000
例3	800	200	600	400	2000
例4	990	10	999	5	2000

例1は、自然治癒した例（ニ）は1,000件中1例しかなく、薬を投与しても治らなかった例は1,000件中1例しかない。圧倒的に効果有りと推定されよう。

但し「効果の測定」が「2日以内に治ったか否かを評価する」という手法だが、薬を飲んだ群のほとんどがぎりぎり2日以内に治っていて、そうでない群がぎりぎり2日以降に治っていた等という可能性もあり得る。閾値の設定の問題が恣意的でないということは前提にある。

例2は、薬を飲んでも飲まなくても結果が同じであり、「薬を飲んだ人はほとんどみんな治っている」けれども、「薬の効果は無い」と推定されよう。

例1同様に閾値や効果測定の設定の問題はある。今回は「治るまでの期間はかわらないが、だいぶ楽に過ごせた」といった効果を効果とは見なしていないが、効果測定の観点をどうするかによって、結論が変わる可能性はある。また、今回の例では薬の量は投与するか否かの2択しかないが、量が妥当だったかという問題もある（⇒一因子実験）。

例3については、実験群の中での治癒率（（イ）/(イ＋ロ））＝80%　は、対照の中での治癒率（（ハ）/(ハ＋ニ））＝60%に対して大きい。この差が“優位ではないか”と思われるほど大きい。正確な検定が必要である。
例4では、実験群の中での治癒率（（イ）/(イ＋ロ））と、対照の中での治癒率（（ハ）/(ハ＋ニ））の差がたいしてかわらない。従って効果がないと思われる。

但し、上記の閾値や効果測定法の問題に加え、「特定の機序の関与」がある場合も考えられる。これについては、イレッサの例で見てみよう。

総じて、対照実験というのは例2のような愚を犯さない上では有効だけれども、「介入の有無」、「効果の有無」を二値化していることにより

介入の強さ（薬の投与量）は妥当だったのか？（主に効果が見られなかった場合）
効果判定の閾値設定が恣意的でなかったのか？（効果があった場合もなかった場合も）

という問題がある。そこで、（一つの因子に対する）介入の強さと効果判定のそれぞれを多段階にした一因子実験という考え方が出てくる^[13]。一因子実験においても、実験条件（介入の強さ,横軸）と効果判定（効果の強さ,縦軸）に取り、適切に象限を分けると、四分割表の考え方である程度理解可能である^[13]。

一方で、作用機序の問題は残っている。作用機序の問題とは、例えば以下のような事例が存在する^[60]。

このうち、海外で行われた1つの試験（INTEREST試験）では、イレッサによって、従来型抗がん剤と同程度の延命効果が得られることが証明されていますが、ほぼ同じデザインで行われた国内の試験（V15-32試験）では、延命効果を明確に証明することはできませんでした。また、海外で行われたもう1つの試験（ISEL試験）では、プラセボよりも延命効果がありそうだったのですが、明確な証明には至りませんでした。(^[60]より引用)

この事例は臨床薬の治験の事例であるため、上記の例4に比べ、はるかに高度で精密な条件設定がなされているわけだが、簡単に考えれば上記の例4と似たような事例である。イレッサのような分子標的薬は、「特定の機序でがんになった人にはよく利くが、そうでない人には殆ど効果がない」という性質がある。例4の場合でも、「（イ）に相当する10人の一部は、この薬のおかげで治ったかもしれない」という可能性が残る。こういった場合には、「薬が効いた群とそうでない群」に何らかの違いがないかを検討することが望まれる。

適切な方法で実験条件を振る/キザむこと（条件の振り方と条件出し）

科学的な実験においては、適切な方法で「実験条件を振る」こと「条件出し」をすることが必要となる^[37]^[61]^[13]。このような行為は、特に技術者や工学者の間では「条件を振る」、「条件を出す」という用語で表現される。これらの用語は、慣用的な使われ方をされることが多く、意味範囲が広い場合も狭い場合あるため、本記事では以下意味で用いることにする。

条件を振る：複数の条件で実験してみること/試作してみることによって、目的にかなった実験/作成条件を探索すること。
条件出し（条件を出す）：複数の条件で実験してみること/試作してみることによって、目的にかなった実験/作成条件を見出すこと。

例えば、「大砲の射出角度を0度から90度まで1度刻みでキザみ、最も砲弾の飛行距離が長い条件を見出だす」、「培地の組成成分として様々なものをためし、細胞が最もよく育つ組成を見つける」、「乳牛の品種として、ホルスタイン、ジャージのどちらが沢山牛乳を出すかを調べる」といった実験は「条件出し」の一例である。

「条件出し」には、「実験条件」（因子）と「評価観点」が少なくとも定められていなければならない。

実験条件（因子）:上の例においても「大砲の射出角度」、「細培地の組成成分」、「乳牛の品種」がこれに相当する。実験条件の探索の仕方としては、単因子実験（「大砲の射出角度」のように1つの因子の影響だけを検討する）であっても、多因子実験（培地成分のうち、グルコース、リジン、ビタミンCの濃度を振るといったように、複数の因子の影響を検討する）であってもよく、必ずしも（実験計画法等の）理論に裏付けられた手法に基づけられた探索手法であるとは限らない。また、因子としては、「XXの濃度」、「射出角度」のように数字で定量化可能な「パラメータ」であることもあれば、「材料名」、「品種」、「タイムコース」のように数字で定量化出来ない「種類」であることもある。

評価観点:上の例においては、「砲弾の飛行距離」、「細胞が最もよく育つ」がこれに相当する。評価観点は「目標値」や「評価関数」を設定する形で定量化される。評価値、即ち実験データが基準値の中に入って入ればよいとする立場もあれば、評価値をプロットした特性曲線の形が望ましい形状であることと立場もあれば、評価値を変数とする評価関数が最大、最小、目標値に最も近いといったことを以て目標に合致していることを評価することもある。場合によっては経験的な識見に基づいて「不具合などの有無」を総合的に判定する場合もある。評価基準の設定や、評価基準の定量化は、実験全体の目的（上位の目的）や、設計仕様に依存する。

基本的なレベルにおいては、条件の振り方は以下のような考え方がなされる^[61]

複数のパラメータを同時に動かすな(安易に「多因子実験」をするな)
最適値や目標値に近いと思われる条件では細かく条件を振れ

このような考え方の根底には、「条件出し」は、「評価値（実験データ）を、実験条件に基づいて比較する」という基本的な考え方がある。因子や評価基準を複雑に考えると、「何と何を、何に基づいて比較しているのか」がわかりにくくなる。

しかし、現実には複数のパラメータが因子となり得て、さらにはパラメータ間の交互作用が考えられる。検討するパラメータの数が多くなれば多くなるほど、パラメータの刻み方が多くなれば多くなるほど「組み合わせ爆発」ともいえる様な現象が起こり、評価すべき「実験条件の組み合わせ」が膨大となる。このような問題に対して、タグチメソッド等の手法が存在する。

また、現実の問題では「良し悪し」は複数種類のデータに基づいて総合的に判断せねば評価できないことも多い。例えば「家を買う」という（条件出しというにはあまりに日常的な）ですら、問題に対しても評価観点として、「駅から近く、閑静で、値段も安く、…」というように多数のの観点が存在する。これらの評価観点には、当然トレードオフが存在する（駅からの距離と値段とは両立しないというように）ため、それぞれの評価観点に適切な重みづけをする等をしたり、より複雑な場合には何らかの評価関数を設定する等が行われる。

条件を振る際には、「実験条件のキザみ方」も問題になる。「実験条件のキザミ方」というのは、「どの条件を細かく振るか」といった事柄を指し示す概念で、初等的な理解としては、

実験結果に支配的な影響を及ぼすパラメータは広いレンジで条件を振る。
最適条件に近いと思われる条件の付近では細かく条件を振る。
広いレンジで傾向を見る(粗探索）ときは試行回数は少なくてもよいが、最適条件に近いと思われる条件については充分な試行回数で実験する（Nを稼ぐ）のが望ましい。

といったことがよく言われる。このようにすることで、より良い条件が見つかったり、最適条件のロバスト性が評価出来たり、少ない回数で信頼性に高い結果がえられたりといったメリットがある。

先述の「大砲の射出角度」では、例えば「まず5度間隔で粗く条件を振り、飛行距離が長かった条件の付近だけ1度キザミで条件を振る」といったことをすることですべてのレンジで平等に1度キザミで条件を振るよりも効率よく条件出しができよう^{[注釈 11]}。

適切な統計手法/検定量統計/検定手法の採用

科学的な考察を加えるためには、適切な統計手法/検定統計量/検定手法の採用が必要である ^[33],^[34],^[35],^[36],^[38]。

検定とは

「検定」という言葉は（統計用語に限ったとしても）以下の異なる意味の間で使われており、人によって用語の使い方がまちまちのものもある。従って本記事の中での用語を以下のように統一する。単に「検定」といった場合には、以下のどの意味で言っているかがあまり重要でない場合を意味するものとする。

仮説検定：帰無仮説がどの程度正しくないかを判定する作業(多くの場合p値を算出する作業)作業そのもの。
検定の目的：「母集団の検定」,「母分散の検定」,「平均値の差の検定」,「等分散の検定」,「比率の検定」,「適合度の検定」,「独立性の検定」
検定手段：二項検定,z検定,t検定,F検定,カイ二乗検定（ピアソン検定）,U検定(マンホイットニー検定),符号検定[27],Wilcoxon検定 [28],フィッシャーの直接確率検定,中央値検定等のように検定の手法の名称
検定統計量そのもの：標本データから一定のアルゴリズムに従って算出される量を一般に統計量という。集団としてある確率分布を仮定（仮説）しておけば、それから統計量に相当する確率変数が、検定に用いられるような確率分布（例えばカイ二乗分布）に従うことになる。このような統計量のことを「検定統計量」と呼ぶことにする。(通常p値を含む場合が多いが、p値は検定統計量に含まないとする）

仮説検定の手順

仮説検定は、多くの場合、概ね以下の手順で実施される^[33]p113。

ステップ1:帰無仮説(H₀),対立仮説(H₁),有意水準(α)
ステップ2:標本から検定統計量を算出する。
ステップ3:上記の検定統計量に対し適切な統計手法を行使し、棄却域に入っているかを判定する。
ステップ4:上記“ステップ3”の結果が棄却域に張っている場合には、H₀を棄却し、H₁を採択する。

多くの場合では、ステップ3ではp値といわれる値を算出する。 p値とは、大ざっぱにいえば0から1までの間に値をとる数であり、帰無仮説が正しい確率（従って「対立仮説が誤っている確率」）を表す指標のことである。 p値が0の場合帰無仮説は“絶対に誤り”であり、p値が1の場合には帰無仮説は “絶対に正しい”ので、p値が小さければ小さいほど対立仮説の正しさが増すことになる(実際にp値が0や1になることはほぼ起こらない)。 p値は、検定統計量と検定手法が決まれば一意に定まるが、これが異なると値が異なることもある（方法によって値が異なる）。

検定手段の種類

z検定,t検定,F検定カイ二乗検定（ピアソン検定）,U検定(マンホイットニー検定),符号検定[29],Wilcoxon検定 [30],フィッシャーの直接確率検定,中央値検定等のように、様々な検定手法が存在する。

例えば、z検定,t検定,F検定,カイ二乗検定のように、検定統計量がある特定の分布に従う^{[注釈 12]}ことを前提とした検定手段では、両側検定とするのか、片側検定とするのかの分類が存在しえる。他にも、検定手段は様々な観点から分類される。

片側/両側の区別：「片側検定」、「両側検定」等
パラメトリックであるか否か：検定対象としているサンプル群が正規分布であると仮定している方法が「パラメトリック」,その前提を置かないものが「ノンパラメトリック」検定である。
比較する群の数：3群以上の群(例.A型,B型,O型,AB型)を比較する「多群検定[31]と、「それ以外」
多重比較をするか否か:「多重比較検定」と、「それ以外」

以下の表に、よく使われる検定手段の例を例示し、適用可能となる前提条件と、検出力,ロバストネスの高低を示す^[34]p99。

表.よく使われる検定手法の例^[34]

#	検定手法の名称	前提条件	検出力・ロバストネス
1	フィッシャーの正確確率検定,二項検定	なし	高
2	t検定,F検定	データの母集団は正規分布	高
3	マン・ホイットニーのU検定(ウイルコクソンの順位和検定)	統計量Uが正規分布に従う必要がある。	中
4	ウイルコクソンの符号順位検定	統計検定量が正規分布に従う必要がある。	中
5	カイ二乗検定,中央値検定	統計検定量がカイ二乗分布に従う必要がある。	低

仮説検定の例

以下の表に仮説検定の典型例を、検定の目的に応じて例示する^[33](pp113-127)。それぞれの場合によく用いられる検定統計量や、前提条件、検定手段等についても、併せて例示する^[33](pp113-127)。

表.検定の典型例^[33]

#	検定の目的	前提^*1	帰無仮説(H₀)	検定手法
1	母平均の検定（標本平均と母平均との間に差があるか否かの検定）	母集団の分布がN(μ,σ²)である。	母平均μに対し「H₀：μ=μ₀」	母分散が既知の場合⇒z検定母分散が未知の場合⇒t検定
2	母分散の検定（標本分散と母分散との間に差があるか否かの検定）	母集団の分布がN(μ,σ²)である。	母分散σ²に対し「H₀：σ=σ₀」	母平均が既知の場合⇒カイ二乗検定母平均が未知の場合⇒カイ二乗検定
3	平均値の差の検定（2つの群の平均値が等しいか否かの検定）	A群,B群は互いにディスジョイントであり、A群の母集団の分布がN₁(μ₁,σ²₁)であり、 B群の母集団の分布が、N₂(μ₂,σ²₂)である。	N₁,N₂に対し「H₀：μ₁=μ₂」	A,B両群の母分散が既知の場合⇒z検定 A,B両群の母分散が未知ではあるが、等しい(σ²₁=σ²₂)⇒⇒t検定 A,B両群の母分散が未知ではあり、等しくない場合(σ²₁≠σ²₂)⇒⇒t検定
4	等分散の検定(2つの群の分散が等しいか否かの検定)	A群,B群はディスジョイントであり、A群の母集団の分布がN₁(μ₁,σ²₁)に従い、B群の母集団の分布が、N₂(μ₂,σ²₂)に従う。	母集団N₁,N₂に対し「H₀：σ₁=σ₂」	片側F検定
5	比率の検定[32][33]	Bi(n,per₀)に従う	母集団内のあるグループの比率（per,母比率）と特定のサブグループ内のある特定のグループの比率について「H₀：per=per₀」	z検定
6	適合度の検定[34]	理論分布が既知	排反なk個の階級C1,C2,...,Ckに分けられる現象を観察したとき、それぞれの階級の度数が X1,X2,...,Xkであったとする。このとき「H₀：上記の度数分布は、理論分布に従っている」	カイ二乗検定

母平均の検定

◆例1-1:母分散が既知の場合

ある病気の患者16人の血清中のカルシウム濃度の平均値(μ)は、7.4 mg/dlであった。健常者の血清中のカルシウム濃度は平均9.8 mg/dl(μ₀) 標準偏差は0.5 mg/dlである。この時、H₁：「この病気に感染すると血清中のカルシウム濃度は低下する」と言えるか？

両側z検定において、有意水準pで帰無仮説を棄却することを考えた場合、p=0.05,p=0.01の場合の帰無仮説の採択範囲は以下のようになる。

α=0.05のとき、「=NORMSINV(0.05/2)」の計算値(Excel)は、「-1.959963985」であるため、標準正規分布の対称性より-1.96≦Z≦1.96となり、

α=0.01のとき、「=NORMSINV(-0.05/2)」の計算値(Excel)は、「0.005」であるため、標準正規分布の対称性より-0.005≦Z≦0.005

標本平均 $\mu =7.4$ Category:科学哲学

[1]

[2]

[3]

[4]

[5]

[6]

[注釈 1]

[7]

[8]

[注釈 2]

[注釈 3]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[注釈 4]

[28]

[29]

[30]

[31]

[32]

[注釈 5]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[注釈 6]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[注釈 7]

[50]

[注釈 8]

[51]

[52]

[注釈 9]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[注釈 10]

[60]

[61]

[注釈 11]

[注釈 12]

表話編歴科学技術研究
経済学	科学の経済学（英語版）科学的知識の経済学（英語版）
歴史	科学の歴史と哲学（英語版）科学史科学技術史（英語版）テクノロジー史
哲学	人新世反実証主義（英語版）経験論ファジィ論理ネオラディズム（英語版）科学哲学社会科学の哲学技術哲学実証主義ポスト実証主義（英語版）宗教と科学科学主義社会構成主義社会認識論（英語版）トランスヒューマニズム
社会学	アクターネットワーク理論社会技術の社会的構成（英語版）技術の社会的形成（英語版）知識社会学科学的知識の社会学（英語版）科学的無知の社会学（英語版）科学史の社会学（英語版）社会工学強力なプログラム（英語版）
科学論	反科学（英語版）計量書誌学バウンダリーワーク（英語版）コンシリエンス（英語版）科学の批判（英語版）線引き問題 (科学哲学) 二重の解釈学（英語版）ロゴロジー (科学)（英語版）論争マッピング（英語版）メタサイエンス（英語版）パラダイムシフトブラック・スワン理論疑似科学科学の心理学（英語版）科学市民科学サイエンスコミュニケーション科学教育ノーマルサイエンス（英語版）新植民地科学（英語版）ポストノーマルサイエンス（英語版）科学のレトリック（英語版）科学戦争科学的科学的コミュニティ（英語版）科学的コンセンサス科学的論争（英語版）科学的反論（英語版）科学的事業（英語版）科学リテラシー科学的方法科学理論科学における不正行為科学的優先度（英語版）科学的懐疑主義サイエントクラシー（英語版）サイエントメトリックス（英語版）チームサイエンスの科学（英語版）伝統的知識（英語版）伝統的な生態学の知識（英語版）統一科学科学界の女性（英語版） STEM分野の女性（英語版）
テクノロジー研究	協働サイボーグ人類学（英語版）非物質化 (製品)（英語版）デジタル人類学（英語版）デジタルメディアの使用とメンタルヘルス（英語版）アーリーアダプターハイプ・サイクルイノベーション普及学破壊的技術イノベーションの線形モデル（英語版）技術革新システム（英語版）ユーザーイノベーションリープフロッグ型発展正規化プロセス理論（英語版）リバースサリエント（英語版）スカンクワークス・プロジェクト（英語版）社会技術システム（英語版）技術的変化テクノクラートテクノサイエンス（英語版）フェミニスト・テクノサイエンス（英語版）技術的技術変化（英語版）技術的収束技術決定論技術革命（英語版）技術的変遷（英語版）テクノロジー科学技術社会論技術への批判（英語版）テクノロジー・ダイナミクス（英語版）技術理論（英語版）技術移転工学研究（英語版）女性技術者（英語版）フィンテック
政策	学問の自由情報格差証拠に基づく政策ファクター10（英語版）科学への資金提供（英語版）ホライズンスキャン（英語版）科学政策（英語版）科学政策の歴史（英語版）科学政策の科学（英語版）科学の政治化（英語版）科学政策の科学（英語版）研究倫理（英語版）科学と文化に対する権利（英語版）社会科学的問題（英語版）テクノロジーアセスメント技術政策（英語版）移行管理 (ガバナンス)（英語版）
ポータル自然科学技術と産業


	All text is available under the terms of the GNU Free Documentation License. この記事は、ウィキペディアの科学的方法 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの計算科学 (改訂履歴)、疑似科学 (改訂履歴)、イスラム科学 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。
TANAKA Corpus	Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います： Creative Commons Attribution (CC-BY) 2.0 France.
京大-NICT 日英中基本文データ	この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
	Copyright © 1995-2025 Hamajima Shoten, Publishers. All rights reserved.
	Copyright © Benesse Holdings, Inc. All rights reserved.
	Copyright (c) 1995-2025 Kenkyusha Co., Ltd. All rights reserved.
	日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved. WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
	Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved. 「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
	This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

科学的方法とは？わかりやすく解説