본문으로 이동

통계학

위키백과, 우리 모두의 백과사전.
(임계 값에서 넘어옴)

통계학(統計學, 영어: statistics)은 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다. 근대 과학으로서의 통계학은 19세기 중반 벨기에케틀레가 독일의 "국상학(國狀學, Staatenkunde, 넓은 의미의 국가학)"과 영국의 "정치 산술(政治算術, Political Arithmetic, 정치 사회에 대한 수량적 연구 방법)"을 자연과학의 "확률 이론"과 결합하여, 수립한 학문에서 발전되었다.[1][2]

개요

[편집]

통계학은 관찰 및 조사로 얻을 수 있는 데이터로부터, 응용 수학의 기법을 이용해 수치상의 성질, 규칙성 또는 불규칙성을 찾아낸다. 통계적 기법은, 실험 계획, 데이터의 요약이나 해석을 실시하는데 있어서의 근거를 제공하는 학문이며, 폭넓은 분야에서 응용되어 실생활에 적용되고 있다.[2] 통계학은 실증적인 뿌리를 가지고 있으며 실질적 활용에 초점을 맞추고 있기 때문에, 흔히 순수수학과는 다소 구분되는 응용수학의 일종으로 여겨진다. 통계학의 방법을 통해, 실제의 수치들을 왜곡하여 해석하는 것을 막고 연구를 바탕으로 합리적인 의사결정을 할 수 있다.[3][4] 통계학은 과학, 산업, 또는 사회의 문제에 적용되며 모집단을 연구하는 과정이 우선시된다. 모집단은 "한나라 안에 사는 모든 사람" 또는 "크리스탈을 구성하는 모든 원자"와 같이 일정한 특성을 지닌 집단이면 어느 것이든 가능하다. 통계학자들은 전체인구(인구조사를 하는 기업)에 대한 데이터를 편집한다. 이것은 정부의 통계관련 법률요약집같은 조직화된 방법으로 수행될 수도 있다. 기술통계학은 모집단의 데이터를 요약하는데 사용된다. 도수 및 비율 (경주 등) 범주 형 데이터를 설명하는 측면에서 더 유용할 동안 수치 기술자는 연속적인 데이터 유형 (소득 등)에 대한 평균과 표준 편차를 포함한다. 데이터 분석 방법 엄청난 자료가 연구되는 현대 사회에서 경제지표연구, 마케팅, 여론조사, 농업, 생명과학, 의료의 임상연구 등 다양한 분야에서 응용되고 있는 통계는 단연 우리 사회에서 가장 필요하고 실용적인 학문이라고 할 수 있다.

수리통계학

[편집]

수리통계학은 수학의 방법을 통계학에 적용한 것이다. 통계학은 원래 국가에 대한 과학으로 생각되었는데 즉, 국가의 땅, 경제, 군력, 인구 등에 관한 사실을 수집하고 분석하는 것이었다. 사용되는 수학적 방법은 해석학, 선형 대수학, 확률분석, 미분 방정식과 측도 이론적 확률이론 등을 포함한다.

어원

[편집]

영어의 스태티스틱스(statistics ← 통계학, 통계)는 ‘확률’을 뜻하는 라틴어statisticus(확률) 또는 statisticum(상태), 이탈리아어statista(나라, 정치가) 등에서 유래했다고 한다. 특히 ‘국가’라는 의미가 담긴 이탈리아어 statista의 영향을 받아, 국가의 인력, 재력 등 국가적 자료를 비교 검토하는 학문을 의미하게 되었다. 근대에서의 통계학은 벨기에의 천문학자이자 사회학자이며 근대 통계학을 확립한 인물로 평가 받는 케틀레가 벨기에의 브뤼셀에서 통계학자들로 구성된 9개의 회의를 소집한 것을 기원으로 하고 있다.[2] 수집되고 분류된 숫자 데이터"라는 의미로 사용된 것은 1829년부터이고, 약자로 stats가 처음 기록된 것은 1961년부터이다. 또, 통계학자의 의미인 statistician이 사용된 것은 1825년부터이다.

한자 문화권에서 사용되는 통계(統計)라는 단어의 기원은 명확하게 알려진 바는 없지만, 막부 말기에서 메이지 천황 초년에 걸쳐 양학자인 야나가와 슌친(柳川春三)이 현재의 의미로 이 단어를 처음 사용했다고 여겨진다. 그가 1869년에 편찬한 책자에서 통계가 현재의 용법으로 사용되었다는 기록이 남아있다. 그 후 1871년에는 대장성에 통계사(統計司)와 통계요(統計寮)가 설치되면서 통계라는 단어의 사용이 대중화되었다.[5]

역할

[편집]

매우 다양한 분야의 연구에서 주어진 문제에 대하여 적절한 정보를 수집하고 분석하여 해답을 구하는 과정은 아주 중요하다. 이런 방법을 연구하는 과학의 한 분야가 통계학이다. 통계학을 필요로 하는 연구분야는 농업, 생명과학, 환경과학, 산업연구, 품질보증, 시장조사 등 매우 많다. 또한 이러한 연구방식은 기업체와 정부의 의사결정과정에서 현저하게 나타난다. 주어진 문제에 대하여 필요한 자료의 형태, 자료를 수집하는 방법, 문제에 대한 최선의 답을 구하기 위한 분석방법을 결정하는 것이 통계학자의 역할이다.

자료는 어떤 특정한 현상(주제, 사실)을 조사하기 위하여 설계하고 계획한 실험에서 나온다. 이런 종류의 자료, 즉 실험자료는 농업연구와 같은 분야에 흔히 있다. 통계학자들은 이미 나온 실험자료를 분석하는데만 관심이 있지않고, 자원을 효과적으로 사용하고 주어진 문제를 실험으로 해결하기 위하여 처음부터 실험을 계획하는데 관심이 있다.또 다른 형태의 자료를 관측으로부터 얻는다. 조사자들은 연구실 밖으로 나가서 실제로 존재하는 것을 조사한다. 이런 예로는 인구 및 주택센서스와 같은 전수조사, 여론조사, 교통량조사 등등이 있다. 이 경우 조사방법과 설문지 작성은 매우 중요한 문제가 된다. 설문지 조사에 있어서 가장 핵심적인 부분은 설문지 작성 요령이다. 묻고자 하는 질문을 짧고 명확하게 물어야 하고 응답자가 고민을 하지 않고 바로 대답할 수 있도록 구성해야 한다. 설문지는 묻고자 하는 질문이면 무엇이든지 다 물을 수 있는 것이 아니라 문제의 핵심적 내용을 담고 있어야 한다.

기본 용어

[편집]
  • 모집단(母集團, population)은 관측 대상이 되는 전체 집단이다. 조사의 대상이 되는 자료 전체이다.[6] 모집단과 관련해서 기호는 그리스문자를 사용하는 것이 관례이다.
  • 표본(標本, sample) 또는 표본집단(標本集團)은 모 집단에서 일부만 조사한 것이다. 모집단에서 추출된 자료의 집합이다. 표본과 관련해서 기호로는 영어 알파벳이 관례로 사용된다.
  • 대푯값(代表값, representative value)은 어떤 데이터를 대표하는 값이다. 평균, 중앙값, 최빈(最頻)값이 있다.
  • 평균(平均, mean)은 데이터를 모두 더한 후 데이터의 개수로 나눈 값이다.
  • 중앙값(中央값, median)은 전체 데이터 중 가운데에 있는 수이다. 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4,851만원이 된다. 이처럼 극단적인 값이 있는 경우 중앙값이 평균값보다 유용하다.
  • 최빈값(最頻값, mode)은 가장 자주 나오는 값이다.
  • 기댓값(期待값, expected value)은 통계에서는 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다.
  • 산포도(散布度, degree of scattering) 또는 변산성(variability)은 자료가 흩어져 있는 정도를 나타낸다. 범위, 분산, 표준편차 등.[2]
  • 편차(偏差, deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다. 즉, 자료값들이 특정값으로부터 떨어진 정도를 나타내는 수치이다.
  • 분산(分散, variance)은 관측값에서 평균을 뺀 값 즉 편차(deviation)를 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 편차들(deviations)의 제곱합(SS,sum of square)에서 평균값이다. 관측값들에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오는 평균의 속성으로 인해서 편차제곱들을 더하게 된다.
  • 표준 편차(標準偏差, standard deviation)는 분산(分散)을 제곱근한 것이다. 제곱해서 얻은 값이 된 분산의 성질로부터 이를 제곱근해서 다시 원래 크기의 단위로 표준화되도록 만들어준다.
  • 절대 편차(絶對偏差, absolute deviation)는 관측값에서 평균 또는 중앙값을 빼고, 그 차이에 절대값을 취하고 그 값들의 대푯값을 구한 것이다.
  • 범위(範圍): 가장 큰 측정값에서 가장 작은 측정값을 뺀 값이다.
  • 모평균(母平均, population mean) μ는 모집단평균이다. 모두 더한 후(後) 전체 데이터 수 n으로 나눈다. 확률 변수기댓값이다. 표집분포(標集分布)에서 평균으로 를 사용할 수(數) 있다.
  • 표본 평균(標集平均, sample mean) 는 표본의 평균이다. 모두 더한 후 n으로 나눈다.
  • 모분산(母分散, population variance) σ2은 모집단의 분산이다. 관측값에서 모평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.
  • 표본분산(標本分散, sample variance) s2은 표본의 분산이다. 관측값에서 표본평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.
  • 모표준편차(母標準偏差, population standard deviation) σ는 모집단표준편차이다. 모분산 σ2제곱근을 씌워서 구한다. 표집분포에서 표준편차로 를 사용할 수 있다.
  • 표본표준편차(標本標準偏差, sample standard deviation) s는 표본표준편차이다. 표본분산 s2에 제곱근을 씌워서 구한다.
  • 평균 절대 편차((平均絶對偏差, average absolute deviation 또는 mean absolute deviation)는 관측값에서 평균을 빼고, 그 차이값에 절대값을 취하고, 그 값들을 모두 더하여 전체 데이터 개수로 나눠준 것이다. 절대값 편차의 평균이라고 생각하면 된다.
  • 중앙값 절대 편차(中央값絶對偏差, median absolute deviation)는 관측값에서 중앙값을 빼고, 그 차이에 절대값을 취한 값들의 중앙값을 구한다.
  • 최소 절대 편차(最小絶對偏差, least absolute deviation)는 회귀 분석(回歸分析, regression analysis)에 사용된다.
  • 상관관계(相關關係, correlation 또는 correlation analysis)는 두 개의 변량이 어느 정도 규칙적으로 동시에 변화되어 가는 성질이다. 모집단의 상관관계는 ρ , 표본의 상관관계는 r 을 기호로 사용한다.
  • 신뢰도(信賴度, reliability) : 통계에서 어떠한 값이 알맞은 모평균이라고 믿을 수 있는 정도.
  • 신뢰 구간(信賴區間, confidence interval, CI) 또는 신뢰 수준(水準, confidence interval level): 1-α나 100(1-α)%의 신뢰 구간.
  • 유의 수준(有意水準, significance level): 보통 α로 표시한다. 95%의 신뢰도를 기준으로 하면 1-0.95인 0.05가 유의 수준 값이다.
  • p-값(p-value, probability value) 또는 유의 확률(significance probability, asymptotic significance): 귀무 가설 H0를 기각할 수 있는 최소한의 유의 수준이다.
  • 임계 값(臨界값, critical value, threshold value): 검정 통계량의 분포에서 유의 수준 α값에 해당하는 선 위의 값이다.

변인

[편집]

변인(變因, variable): 변수(變數)라고도 부르며, 연구의 대상이 되고 있는 일련의 개체를 말한다.

  • 독립 변인(獨立變因): 다른 변인에게 작용하거나 다른 변인을 예언하거나 설명해 주는 변인. 실험연구의 경우는 독립변인은 실험자에 의하여 임의로 통제되고 조작된다. 따라서 실험변인(experimental variable) 또는 처치변인(處置變因, treatment variable)이라고도 한다.
  • 종속 변인(從屬變因): 독립변인의 조작결과(操作結果)에 의존하며 이의 효과를 판단하는 준거가 되는 변인.

실험의 기본적인 형태는 어떤 변인이 다른 어떤 변인에 어떠한 영향을 미치는지를 알아보고자 한다.

  • 매개 변인(媒介變因): 종속변인에 영향을 주는 독립변인 이외의 변인으로서 연구에 통제되어야 할 변인
  • 양적 변인(量的變因): 양의 크기를 나타내기 위하여 수량으로 표시되는 변인
  • 질적 변인(質的變因): 변인이 가지고 있는 속성을 수량화 할 수 없는 변인
  • 연속 변인(連續變因): 주어진 범위 내에서는 어떤 값도 가질 수 있는 변인
  • 비연속 변인(非連續變因): 특정 수치만을 가진 변인

조사와 척도

[편집]

조사대상을 기준으로하면 대상이 되는 통계 집단의 단위를 하나하나 전부 조사하는 관찰 방법인 전수조사(全數調査)와 모집단의 일부를 표본으로 추출하여 조사한 결과로써 모집단 전체의 성질을 추측하는 통계 조사 방법인 표본조사(標本調査)가 대표적인 조사 방법이다.

  • 전수조사(全數調査): 조사의 대상이 되는 자료 전체를 빠짐없이 조사하는 것이다.(모집단 전체를 조사).[6]
  • 표본조사(標本調査): 조사의 대상이 되는 자료의 일부만을 택하여 조사함으로써 전체를 추측하는 조사이다.[6] 의식적으로 표본을 추출하는 유의 추출법과 확률론에 입각하여 표본을 추출하는 임의 추출법이 있다.

이러한 조사를 통해 자료를 수집할 때에는 자료의 양질이 측정수준(測定水準)에 따라 분류된다. 자료의 측정수준은 다음과 같이 분류된다. 측정수준에 따라 통계에 이용해야 할 요약 통계량이나 통계 검정법이 다르게 된다.

  • 분류 자료(分類資料): 수치로 측정이 불가능한 자료이다. 질적 자료라고도 한다.
  • 수량 자료(數量資料): 수치로 측정이 가능한 자료이다. 양적 자료라고도 한다.
    • 구간척도(區間尺度, 등간척도(燈竿尺度), interval scale): 순서뿐만 아니라 그 간격에도 의미가 있으나, 0에 절대적인 의미는 없다. (예: 온도, 지능지수(知能指數) 등.)
    • 비율척도(比率尺度, ratio scale): 0을 기준으로 하는 절대적 척도로, 간격뿐만이 아니라 비율에도 의미가 있다. (예: 절대온도(絶對溫度), 금액, 몸무게, 등.)

리커트법

[편집]

리커트법(Likert法) 또는 리커트 척도(Likert scale)는 1932년 리커트(Likert, R.)가 고안한 태도 측정법이다. 응답자가 동의나 반대의 정도를 나타내도록 질문을 하는 형태이다.

통계적 방법

[편집]

실험 계획

[편집]

조직적인 통계 조사가 이뤄지기 전까지는 질문서를 만들어 선정된 가구에 배포하는 방식을 이용했다.[7] 실험계획은 자료수집전에 미리 어떻게 실험할것인지 계획하여, 원하는 자료를 정확하게 수집하고 기록할 수 있도록 하는 과정이다. 자료 수집의 규모와 대상, 할당 방법을 바르게 결정하고 정당한 자료를 수집할 수 있도록 검토한다. 설문지 작성법 등도 여기에 포함된다.[2]

설문지 작성

[편집]

설문지 작성은 실험계획의 일부이기도 하지만, 대개 별개의 실습을 통해 체득하여야 한다. 설문지는 "앙케이트(Enquete)"라고도 하며 통계 자료에 필요한 자료를 수집하기 위해 필요한 질문들을 기록하는 하나의 서식이다. 이를 이용해 설문지 작성자, 응답자들의 객관적인 생각, 각자의 가치와 신념, 태도 등과 같은 여러 정보를 수집할 수 있다. 설문지는 가능한 표준화 되도록 작성해야한다. 필요한 정보를 더욱 포괄적으로 획득하기 위해 설문지는 다섯 가지 요소 응답자에 대한 협조요청, 식별자료, 지시사항, 설문문항, 응답자의 분류를 위한 자료로 구성된다. 설문지는 여러 번 수정, 검토 과정을 거쳐야 의도한 자료의 수집이 가능하다. 설문지를 이용한 통계자료 수집은 비교적 비용이 적게들고 큰 표본에도 쉽게 적용이 가능하다는 장점이 있다. 그러나 다른 자료수집 방법에 비해 무응답률이 높은 편이며 응답에 대한 보충설명의 기회가 주어지지 않는다는 단점이 있다.

추론 통계

[편집]

추론 통계(statistical inference)는 기술통계로 어떤 모집단에서 구한 표본정보를 가지고 그 모집단의 특성 및 가능성 등을 추론해내는 통계적 방법이다. 보통 수집된 자료는 어떻게 분석해야 할지 미리 정해져 있기도 하지만, 대부분 획득한 자료(모집단)을 가지고 여러 그래프를 그려보는 와중에 또다른 별개의 분석방법을 추가로 채택할 필요성을 느끼게 된다. 이러한 모집단에 대한 전체적 조감을 해보고 또다른 분석방향을 모색해 보는 과정에 해당한다.[2] 추론 통계는 바탕인 기술 통계량이 있어야 한다. 이 추론 통계를 하는 이유는 모든 사람을 대상으로 검사를 하는 것은 비합리적이고 대규모 집단을 가지고 연구하는 것이 소수의 집단을 가지고 연구하는 것보다 훨씬 경제적이고 효율적이기 때문이다. 추론 통계는 기술 통계량의 정확성을 유지하는 작업으로서 사용한다. 보통 일반적인 추론은 실험 결과가 기존의 방식, 또는 다른 품종간 비교 등에서 차이점이 유의한지를 검증하는 것이다.

기술 통계

[편집]

기술통계(記述統計,descriptive statistics)는 측정이나 실험에서 수집한 자료의 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 규명하는 통계적 방법이다. 기술통계에는 분석방향에 따라 여러가지가 있다. 단순한 평균 분산 등의 기초적인 분석 이외에, 모집단에서 어떤인자들이 있는지 뽑아내보는 인자분석과, 특정표본이 어떤모집단에 속하는지(원 모집단을 어떻게 여러 집단으로 나눠야 하는지) 판단하는 판별분석, 두 인자간의 상호관계에 대한 정준상관분석, 인자들의 숫자를 줄여 단순화하는 주성분분석, 그 외 군집분석 등, 다양한 분석방법이 존재한다.[2]

통계분석 소프트웨어

[편집]
  • SAS(Statistical Analysis System) - 기업체에서 주로 쓰는 대표적 프로그램이다. 큰 규모의 자료를 편리하게 다룰 수 있으나 각종 통계 분석 결과를 왜곡해서 보여준다는 비판을 받기도 한다.[8]
  • R은 무료 공개 통계 프로그래밍 및 개발환경이다. S 언어에 바탕을 두고 개발되었으며, 학술적 목적으로 널리 사용된다. 새로 개발된 분석 방법들이 확장 패키지를 통해 공개되고 있다.
  • SPSS (Statistical Package for the Social Sciences)는 1995년 윈도우 버전이 출시되었다. IBM에서 개발하고있다.

다양한 통계분석을 할 수 있고 사회과학, 의학 등 전 분야에서 다양하게 쓰이는 프로그램이나 계산 속도가 느려 큰 규모의 자료를 다루기에는 편리하지 않다.

  • PSPP - 샘플 데이터 분석 및 통계(統計)를 위한 무료 및 공개 소프트웨어 애플리케이션으로 IBM SPSS와 대부분 호환된다
  • MINITAB - 학교와 기업에서 품질관리와 통계학 교육용으로 많이 사용되는 프로그램이다.
  • RevMan - 코크란 리뷰 메니저(Cochrane Review Manager)인 RevMan은 코크란(Cochrane)에서 제공하는 의료보건분야의 무료 메타분석 프로그램이다.

통계학 관련 학문

[편집]

통계학은 컴퓨터 과학, 프로그래밍 언어, 선형대수학, 해석학, 분포론, 수치해석, 확률론 등 여러 학문과 관련되어 있다.

통계학과 사회과학의 발전에 따라 분산분석, 회귀분석, 요인분석 등과 같은 평가모형들이 발전되고, 이들이 정책평가에 응용됨으로써 정책영향의 평가에 공헌을 하고 있으며, 아직도 계속 발전되어 가는 과정에 있다.

특히 정보화사회와 빅데이터 시대를 맞아 다양한 사회정보의 수집·분석·활용을 담당하는 새로운 직종으로 기업, 정당, 지방자치단체, 중앙정부 등 각종 단체의 시장조사 및 여론조사 등에 대한 계획을 수립하고 조사를 수행하며 그 결과를 체계적으로 분석, 보고서를 작성하는 관련 학문이 필요하게 되어 사회조사분석학이 등장하게 된다.

사회조사분석사란 기업이나 정당, 지자체, 중앙정부 등 각종 단체가 필요로 하는 조사를 수행해 분석, 보고하는 전문 인력군이다. 주로 경영, 조사기획, 자료분석, 마케팅 분야에서 일하므로 조사방법론, 사회통계, SPSS 통계분석 실무 등의 지식을 필요로 한다.

통계학의 변화

[편집]

현대에 들어와 데이터 과학자들로 구성된 통계 조직은 기관과 단체 그리고 기업의 수익에 영향을 미치는 다양한 데이터를 입체적으로 분석하고 결론을 얻어낸다. 미래를 예측해 더 나은 결과물을 처방한다. 수많은 데이터 가운데 의미 있는 데이터를 찾아냄으로써 더 나은 의사결정을 돕는 작업이 있는데 데이터 클리닝, 데이터 마이닝 등이다.

기업과 기관마다 부르는 이름은 다르지만, 생산·판매와 서비스 등 핵심 직무에서 영업력 개선과 사원 복지 등 전 영역에 걸쳐 이같은 데이터 과학 조직의 역할은 전방위로 확대되고 있다. 업계에서는 주요 데이터에 대한 분석과 통계가 이뤄지는 비즈니스인텔리전스(BI) 조직이라 부른다. 데이터 분석 조직을 운영하는 IT 조직은 시스템에서 나오는 각종 데이터를 분석해 기업의 핵심 영역에 가치를 더하는 조직으로 변모 중이다.

전사자원관리(ERP· 고객관계관리(CRM· 생산관리시스템(MES· 경영 정보 시스템(MIS· 전략적 기업 경영(SEM) 등 각종 시스템에서 쏟아지는 수많은 데이터에 대한 분석능력이 미래를 예측하는 핵심 경쟁력인 시대, 이른바 `데이터 경영` 시대의 개막이 시작되었다. 이러한 시대를 ‘빅 데이터’ 기술의 시대라고 하는데 미국의 유명 경제 출판 및 미디어 기업인 포브스도 미래의 유망직업 중 하나로 '데이터 마이너(정보수집 분석가)'를 선정하기도 했다.

포브스에 의하면 빅 데이터(Big Data) 데이터 마이닝이란 기존 데이터베이스 관리도구의 데이터 수집·저장·관리·분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술로되는 ‘빅 데이터’를 보완, 마케팅, 시청률조사, 경영 등으로부터 체계화해 분류, 예측, 연관분석 등의 데이터 마이닝을 거쳐 통계학적으로 결과를 도출해 내고 있다.[2][9][10]

대한민국에서는 2000년부터 정보통신부의 산하단체로 사단법인 한국BI데이터마이닝학회가 설립되어 데이터 마이닝에 관한 학술과 기술을 발전, 보급, 응용하고 있다. 또한 국내·외 통계분야에서 서서히 빅 데이터 활용에 대한 관심과 필요성이 커지고 있는 가운데 국가통계 업무를 계획하고 방대한 통계자료를 처리하는 국가기관인 통계청빅 데이터를 연구하고 활용방안을 모색하기 위한 '빅 데이터 연구회'를 발족하였다.[11] 하지만 업계에 따르면, 미국영국, 일본 등 선진국들은 이미 빅 데이터를 다각적으로 분석해 조직의 전략방향을 제시하는 데이터과학자 양성에 사활을 걸고 있다. 그러나 한국은 정부와 일부 기업이 데이터과학자 양성을 위한 프로그램을 진행 중에 있어 아직 걸음마 단계인 것으로 알려져 있다.[12]

같이 보기

[편집]

각주

[편집]
  1. “명저 새로 읽기, 이언 해킹 "우연을 길들이다". 경향신문. 2013년 1월 18일. 2013년 3월 5일에 확인함. 
  2. 정상윤, 오경환 (2012). 《알기 쉬운 기초통계학》. 형설출판사. ISBN 9788947271820. 
  3. Moore, David (1992). 〈Teaching Statistics as a Respectable Subject〉. F. Gordon and S. Gordon. 《Statistics for the Twenty-First Century》. Washington, DC: The Mathematical Association of America. 14–25쪽. ISBN 978-0-88385-078-7. 
  4. Chance, Beth L.; Rossman, Allan J. (2005). 〈Preface〉. 《Investigating Statistical Concepts, Applications, and Methods》 (PDF). Duxbury Press. ISBN 978-0-495-05064-3. 
  5. https://www.stat.go.jp/teacher/c2epi2.html 「「統計」という言葉の起源」統計学習の指導のために(先生向け) 日本国総務省統計局 2010年 2019年11月20日閲覧
  6. 개념원리 적분과통계, 이홍섭
  7. 윤석범. 《새거시경제학》. 144쪽. 
  8. Exegeses on Linear Models
  9. (한국어) 통계청 안내 참조
  10. (한국어) 사회조사분석사 Archived 2014년 8월 29일 - 웨이백 머신 안내 참조
  11. “통계청 `빅데이터 연구회` 발족, 통계정보국 직원 중심 자체 결성… 동향 분석ㆍ활용방안 모색”. 디지털타임스. 2012년 11월 8일. 2013년 3월 20일에 확인함. 
  12. ““빅테이터가 기업미래 좌우””. CNB저널. 2013년 2월 12일. 2013년 10월 29일에 원본 문서에서 보존된 문서. 2013년 3월 20일에 확인함. 

외부 링크

[편집]