Prijeđi na sadržaj

Statistika

Izvor: Wikipedija
Gustina verovatnoće se povećava sa približavanjem očekivanoj (srednjoj) vrednosti u normalnoj distribuciji. Statistički parametri koja se koriste u procenama standardizovanog testiranja su prikazani. Skale obuhvataju standardne devijacije, kumulativne procente, percentilne ekvivalente, Z-skorove, T-skorove, standardne devetke, i procente u standardnim devetkama.
Dijagrami raspršenja se koriste u opisnoj statistici za prikazivanje uočenih relacija između različitih promenljivih.

Statistika je oblast matematike koja se bavi sakupljanjem, analizom, interpretacijom, objašnjavanjem i prezentacijom podataka.[1][2] Ona se primenjuje u širokom spektru akademskih disciplina, od fizike do ekonomije i sociologije.

Neke od popularnih definicija su:

  • Merijam-Vebsterov rečnik navodi da je statistika „grana matematike koja se bavi sakupljanjem, analizom, interpretacijom, i prezentacijom mase numeričkih podataka.“[3]
  • Statističar Ser Artur Lion Bouli je definisao statistiku kao „numeričku izjavu činjenica u bilo kojoj objasti ispitivanja postavljenih u međusobnu relaciju.“[4]

Matematički metodi statistike su potekli iz teorije verovatnoće, iz vremena dopisivanja Pjera Ferma i Bleza Paskala (1654). Kristijan Hajgens (1657) je dao prvo poznato naučno tretiranje ove teme. Jakob Bernuli u delu Ars Conjectandi (posthumno, 1713) i Abram d Moavr u delu Doktrina šansi (1718) su statistiku posmatrali kao granu matematike[5] U moderno doba, rad Kolmogorova je bio bitan za formulisanje osnovnog modela teorije verovatnoće koji se koristi u osnovi statistike.

Osnovna podela statistike je na deskriptivnu i inferencijalnu..[6] Deskriptivna statistika bavi se merama centralne tendencije (aritmetička sredina, medijana i mod), merama varijabiliteta (raspon, standardna devijacija, varijanca, interkvartilni raspon, semiinterkvartilni raspon i prosečno odstupanje), kao i grafičkim i tabelarnim prikazivanjem osnovnih statističkih vrednosti. S druge strane, inferencijalna statistika se odnosi na proveravanje postavljenih hipoteza (nultih i afirmativnih/alternativnih), uz pomoć statističkih testova, koeficijenata i njihove značajnosti (t-test, analiza varijance, hi-kvadrat test, koeficijenti asocijacije i korelacije, diskriminaciona analiza, Man-Vitnijev test, Test znaka ...). U statističkom žargonu, deskriptivna statistika se naziva statistikom sa malim s, a inferencijalna statistikom sa velikim S, jer je osnovni cilj deskriptivne statistike da ponudi podatke koji se dalje mogu obrađivati uz pomoć tehnika inferencijalne statistike.[7]

Druga podela se odnosi na tehnike koje se koriste u statistici. Saglasno tome, razlikuje se parametrijska i neparametrijska statistika.[8] U slučaju parametrijske statistike, proračuni se temelje na normalnoj (Gausovoj) distribuciji, dok se u slučaju neparametrijske statistike sprovode testovi koji ne moraju podrazumevati normalnost distribucije podataka kojima raspolažemo. Primeri prve grupe tehnika su: složena analiza varijanse, Pirsonov produkat - koeficijent korelacije, aritmetička sredina, standardna devijacija ... Primeri za drugu grupu tehnika su: Spirmanov koeficijent korelacije, hi-kvadratni test, Kruskal-Valisov test, medijana, moduo i sl.

Statistika je neodvojiva od teorije verovatnoće, koja predstavlja skup matematičkih modela za opisivanje odnosa između ostvarenih događaja (ishoda) i mogućih događaja. Najvažniji koncept teorije vjerovatnoće koji ima široku primenu u statistici je normalna raspodela. Standardna normalna raspodela ima aritmetičku sredinu M = 0 i standardnu devijaciju koja iznosi SD = 1. Udaljenost nekog rezultata (podatka) od aritmetičke sredine, u jedinicama standardne devijacije, predstavlja tzv. z-vrednost. Ukoliko je z-vrednost viša od nule, rezultat se nalazi iznad aritmetičke sredine. U suprotnom, dati rezultat pada ispod proseka.

Kako bi se primenila neka od statističkih tehnika/procedura, potrebno je prvo postaviti adekvatnu hipotezu. Hipoteze mogu biti nulte (gde se ne pretpostavlja razlika između dve ili više grupa ispitanika ili se ne pretpostavlja da će korelacija između nekoliko varijabli biti statistički značajna). Takođe, postoje i afirmativne hipoteze, kojima se pretpostavlja neka statistički značajna razlika ili povezanost.[9]

Primeri za nulte hipoteze su:

  • Nema statistički značajnih spolnih razlika u stavovima prema eutanaziji.
  • Ne očekuje se statistički značajna korelacija između telesne mase i inteligencije.

Primeri za afirmativne hipoteze su:

  • Postoje statistički značajne dobne razlike u vremenu reakcije na prezentirane stimuluse.
  • Postoji statistički značajna povezanost između alkoholizma i impotencije kod muškaraca.

Delokrug

[uredi | uredi kod]

Statistika je matematičko telo nauke koje se bavi sakupljanjem, analizom, interpretacijom ili objašnjavanjem, i predstavljanjem podataka.[10] Ona se može smatrati granom matematike.[11] Neki smatraju da je statistika zasebna matematička nauka, pre nego grana matematike. Za razliku od mnogih naučnih disciplina koje koriste podatke, statistika se bavi upotrebom podataka u kontekstu neizvesnosti i odlučivanjem u svetlu verovatnoće.[12][13]

Matematička statistika

[uredi | uredi kod]
Glavni članak: Matematička statistika

Matematička statistika je primena matematike na statistiku. Matematičke tehnike koje se za to koriste obuhvataju matematičku analizu, linearnu algebru, stohastičku analizu, diferencijalne jednačine, i teoriju verovatnoće.[14][15]

Pregled

[uredi | uredi kod]

Pri primeni statistike na problem, uobičajena je praksa da se počne sa populacijom ili procesom koji se studira. Populacije mogu da budu raznovrsne teme kao što su „sve osobe koja žive u zemlji“ ili „svaki atom od koga se sastoji kristal“.

Idealno, statističari prikupe podatke o celokupnoj populaciji (operacija zvana popis). To može da bude organizovano posredstvom državnih statističkih zavoda. Opisna statistika se može koristiti za sumiranje podataka o stanovništvu. Numerički deskriptori obuhvataju srednju vrednost i standardnu devijaciju za kontinuirane podatke (poput zarade), dok su frekvencija i procenti korisniji pri opisivanju kategoričkih podataka (poput rase).

Kad je popis moguć, izučava se izabrani podskup populacije koji se naziva uzorak. Nakon određivanja reprezentativnog uzorka, podaci se prikupljaju za članove uzorka u opservacionom ili eksperimentalnom okruženju. Opisna statistika se može koristiti za sumiranje podataka datih uzoraka. Pošto selekcija uzoraka sadrži element slučajnosti, utvrđeni numerički deskriptori uzorka su isto tako podložni slučajnosti. Da bi se proizveli smisleni zaključci o celokupnoj populaciji, neophodna je primena statističkog zaključivanja. Koriste se paterni u podacima uzorka da bi se izveli zaključci o predstavljenoj populaciji, uzimajući u obzir slučajnost. Ti zaključci mogu da poprime oblik: odgovaranja na „da/ne pitanja“ o podacima (testiranje hipoteze), procenjivanje numeričkih karakteristika podataka (estimacija), opisivanje asocijacija u podacima (korelacija) i modelovanje relacija u podacima (na primer, koristeći regresionu analizu). Izvođenje zaključaka može da obuhvata prognoziranje, predviđanje i procenjivanje neuočenih vrednosti bilo unutar ili povezanih sa studiranom populacijom; to može da uključuje ekstrapolaciju i interpolaciju vremenskih serija ili prostornih podataka, a može da obuhvata i analizu podataka.

Statistika kao primenjena nauka

[uredi | uredi kod]

Neki primeri korištenja statistike:[16][17]

  • ispitivanja glasača pre/u toku izbora
  • ispitivanje ljudi uopšteno o bilo kojoj temi
  • vođenje statistike u proizvodnji procesora, utvrđivanje postotka ispravnih procesora (prinos)
  • vođenje statistike u proizvodnji, pre i posle svake kontrole
  • primenjena statistika na području biomedicinskih nauka (biostatistika)[18][19][20]
  • primenjena statistika u području geonauke, odn. prostorna statistika ili geostatistika[21][22]
  • biomedicinska statistika (količnik rizika, odnos šansi, ROC krive, mere asocijacije)

Psihološka statistika je matematičko-metodološko ispitivanje i proučavanje individualnih razlika u: ličnosti, motivaciji, inteligenciji, stavovima, vrednostima, interesovanjima, emocijama. Takođe, proveravaju se korelacije između različitih varijabli, te doprinos skupa (seta) varijabli (poznatih pod nazivom prediktori) jednoj kriterijskoj varijabli (koja je ishod, posledica, odnosno neka mera ponašanja ili mišljenja koja je bitna npr. u poslu, na fakultetu). Primeri prediktora su: generalna inteligencija, motivacija i radne navike, a primer kriterija je školski ili akademski uspeh na kraju godine.

Biomedicinska statistika je oblast koja obuhvata primenu statistike u kliničkim medicinskim naukama, kao i u biologiji. Najčešća primena u okviru ove oblasti je u eksperimentalnim istraživanjima, gde se treba utvrditi delovanje nekog leka ili terapije, na način da se uporede eksperimentalna i kontrolna grupa. Ako je razlika između njih statistički značajna, onda ta razlika zaista i postoji, a nije rezultat slučaja.

Logičke greške pri upotrebi statistike

[uredi | uredi kod]

Najčešća logička greška je nereprezentativan uzorak pri ispitivanju. Samo ispitivanje može biti sociološki izvedeno savršeno (ispitanici popunjavaju uputnik neometani i anonimno), matematička analiza je izvedena bez grešaka (zbroj svih izbora daje 100%, ne manje ili više, što se takođe može dogoditi), međutim rezultati ipak nemaju previše veze s realnošću.

Uzorak može biti nereprezentativan iz više razloga:

  • premali broj ispitanika
  • ispitanici samo jednog pola
  • ispitanici samo određenog doba
  • ispitanici samo određenog socijalnog statusa (klase, etničke grupe i sl.

Još neke važne greške prilikom korištenja statistike su[23]:

  • pogrešno unošenje podataka u statistički program, tokom pravljenja baze podataka (preskakanje/izostavljanje podataka ili duplo navođenje nekih od prikupljenih podataka usled brzine kucanja, nesmotrenosti i sl)
  • pogrešna upotreba statističkih tehnika (npr. korištenje neparametrijskih tehnika umesto parametrijskih)
  • pogrešno prikazivanje podataka (neki grafikoni nisu pogodni za sve vrste prikaza/sumiranja podataka/rezultata)
  • neadekvatna interpretacija podataka (usled neznanja ili neobraćanja pažnje na metodološka ograničenja određenog istraživanja)
  • preterivanje u navođenju statističkih pokazatelja ili izostavljanje bitnih pokazatelja (npr. korelacijske matrice sa prevelikim brojem podataka, koje otežavaju razumevanje i smanjuju preglednost statističkog prikaza ili izostavljanje indikatora kao što su intervali pouzdanosti, veličina efekta, statistička značajnost i slično).

Rezultati dobijeni valjanom analizom nereprezentativnog uzorka su nevaljani, kao i oni dobijeni nevaljanom analizom reprezentativnog uzorka.

Istorija statističke nauke

[uredi | uredi kod]
Đirolamo Kardano, najraniji pionir u oblasti matematičke verovatnoće.

Statistički metodi datiraju još iz 5. veka p. n. e.[24]

Neki naučnici smatraju da statistika vodi poreklo iz 1663. godine, iz publikacije Prirodne i političke opservacije o zapisima o mortalitetu autora Džona Granta.[25] Rane primene statističkih metoda su bile koncentrisane oko potrebe država da baziraju zakone na demografskim i privrednim podacima. Opseg statističke discipline je proširen u ranom 19. veku tako da je obuhvatao opšte sakupljanje i analizu podataka. U današnje vreme, statistika je u širokoj primeni u društvenim, ekonomskim i prirodnim naukama.

Njene matematičke osnove su položene u 17. veku sa razvojem teorije verovatnoće, čemu su znatno doprineli Đirolamo Kardano, Blez Paskal i Pjer de Ferma. Matematička teorija verovatnoće je ponikla iz izučavanja igara na sreću, mada je koncept verovatnoće bio već ispitivan u srednjovekovnim zakonima i od strane filozofa poput Huana Karamuela.[26] Metod najmanjih kvadrata je prvi opisao Adrijen-Mari Ležandr 1805. godine.

Karl Pirson, osnivač matematičke statistike.

Moderna oblast statistike se pojavila u kasnom 19. i ranom 20. veku u tri stupnja.[27] Prvi talas, na prelazu veka, je bio vođen radom Frensisa Galtona i Karla Pirsona, koji su transformisali statistiku u rigoroznu matematičku disciplinu koja se koristi za analizu, ne samo u nauci, veći i u industriji i politici. Galtonovi doprinosi obuhvataju uvođenje koncepata standardne devijacije, korelacije, regresione analize i primena tih metoda u izučavanju raznih ljudskih karakteristika – visine, težine, dužine trepavica, između ostalog.[28] Pirson je razvio Pirsonov produktno-momentni koeficijent korelacije, definisan kao produkt-moment,[29] metod momenta za određivanje distribucije uzoraka i Pirsonovu distribuciju, a napravio je i niz drugih doprinosa.[30] Galton i Pirson su zasnovali časopis Biometrika, kao prvi časopis za matematičku statistiku i biostatistiku (koja se u to vreme zvala biometrija), i Pirson je kasnije osnovao prvi univerzitetski statistički departman na svetu pri Londonskom univerzitetskom koledžu.[31]

Ronald Fišer je formulisao termin nulte hipoteze u kontekstu eksperimenta degustacije čaja, koja „nikad nije dokazana ili ustanovljena, ali ju je moguće opovrgnuti, u toku eksperimenata“.[32][33]

Drugi talas je tokom 1910-ih ih 20-tih inicirao Vilijam Goset, i dostigao je svoju kulminaciju u uvidima Ronalda Fišera, koji je napisao udžbenike koji su definisali ovu akademsku disciplinu na univerzitetima širom sveta. Fišerove najznačajnije publikacije su bile: njegov seminalni članak iz 1918. godine Korelacija između rođaka po pretpostavci Medelovskog nasleđivanja, u kome je prvi put korišten statistički termin, varijansa, njegov klasični rad iz 1925. godine Statistički metodi za istraživače i rad iz 1935. Dizajn eksperimenata,[34][35][36][37] u kome je razvio rigorozne modele eksperimentalnog dizajna. On je proizveo koncepte dovoljnosti, Fišerovog linearnog diskriminatora i Fišerove informacije.[38] U njegovoj knjizi iz 1930. godine Genetička teorija prirodne selekcije on je primenio statistiku na razne biološke koncepte kao što je Fišerov princip[39]. A. V. F. Edvards je izjavio da je to „verovatno najpoznatija rasprava u evolucionoj biologiji“.[39] Fišer je isto tako razmatrao polnu selekciju, tzv Fišerovu pistu,[40][41][42][43][44][45] koncept polne selekcije uslovljene pozitivnom povratnom spregom efekta fizičkog izgleda, koji je prisutan u evoluciji.

Krajnji talas, u kojem je uglavnom došlo do rafinacije ranijih razvoja, je proistekao iz kolaboracije između Ergona Pirsona i Džerzi Nejmana tokom 1930-ih. Oni su uveli koncepte greške „Tipa II“, stepena testa i intervala poverenja. Džerzi Nejman je 1934. pokazao da je uzimanje stratifikovanih slučajnih uzoraka generalno bolji metod procene od namenskog (kvotnog) uzimanja uzoraka.[46]

U današnje vreme se statistički metodi promenjuju u svim poljima u kojima se donose odluke, radi izvođenja preciznih zaključaka iz sakupljenih podataka i radi donošenja odluka imajući u vidu neizvesnost na bazi statističke metodologije. Primena modernih računara je omogućila izvođenje statističkih proračuna velikih razmera, kao i razvoj novih metoda koje ne bi bilo praktično sprovoditi ručnim putem. Statistika je i dalje oblast aktivnih istraživanja, na primer na problemima analize velikih količina kompleksnih podataka.[47]

Povezano

[uredi | uredi kod]

Reference

[uredi | uredi kod]
  1. Dodge, Y (2006). The Oxford Dictionary of Statistical Terms. Oxford University Press. ISBN 978-0-19-920613-1. 
  2. Romijn, Jan-Willem (2014). „Philosophy of statistics”. Stanford Encyclopedia of Philosophy. 
  3. „Definition of STATISTICS”. www.merriam-webster.com. Pristupljeno 28. 5. 2016. 
  4. „Essay on Statistics: Meaning and Definition of Statistics” (en-US). Economics Discussion. 2. 12. 2014. Pristupljeno 28. 5. 2016. 
  5. Vidi delo The Emergence of Probability Ijana Hakinga za istoriju ranog razvoja samog koncepta matematičke verovatnoće.
  6. Lund Research Ltd.. „Descriptive and Inferential Statistics”. statistics.laerd.com. Pristupljeno 23. 3. 2014. 
  7. Devlin, K. & Lorden, G. (2007). The numbers behind NUMB3RS: Solving crime with mathematics. New York: Penguin Group.
  8. Petz, B. (2004). Osnovne statističke metode za nematematičare (peto izdanje). Jastrebarsko: Naklada Slap.
  9. „What Is the Difference Between Type I and Type II Hypothesis Testing Errors?”. About.com Education. Arhivirano iz originala na datum 27. 02. 2017. Pristupljeno 27. 11. 2015. 
  10. Moses 1973: str. 1–3
  11. Hays, William Lee. Statistics for the Social Sciences, Holt, Rinehart and Winston, p.xii. 1973. ISBN 978-0-03-077945-9. pp.
  12. Moore 1992: str. 14–25
  13. Chance & Rossman 2005
  14. Lakshmikantham 2002
  15. Schervish 1995
  16. Nikoletseas, M. M. (2014). Statistics: Concepts and Examples.. Michael Nikoletseas. ISBN 978-1500815684. 
  17. Anderson, Sweeney & Williams 1994: str. 5-9
  18. Indrayan 2012
  19. Ewens & Grant 2004
  20. Dehmer, Matthias; Frank Emmert-Streib; Graber, Armin; Salvador, Armindo (2011). Applied Statistics for Network Biology: Methods in Systems Biology. Wiley-Blackwell. ISBN 978-3-527-32750-8. 
  21. Isaaks, E. H. and Srivastava, R. M. (1989), An Introduction to Applied Geostatistics, Oxford University Press, New York, USA.
  22. Mariethoz, Gregoire, Caers, Jef (2014). Multiple-point geostatistics: modeling with training images. Wiley-Blackwell, Chichester, UK, 364 p.
  23. Repišti, S.. Some common mistakes of data analysis, their interpretation, and presentation in biomedical sciences. IMO, 7 (12): 37–46. 2015. .
  24. Thucydides 1985: str. 204
  25. Willcox, Walter F. (1938). „The Founder of Statistics”. Review of the International Statistical Institute 5 (4): 321–328. DOI:10.2307/1400906. JSTOR 1400906. 
  26. J. Franklin, The Science of Conjecture: Evidence and Probability before Pascal,Johns Hopkins Univ Pr 2002
  27. Walker, Helen Mary (1975). Studies in the history of statistical method. Arno Press. ISBN 9780405066283. 
  28. Galton, F (1877). „Typical laws of heredity”. Nature 15 (388): 492–553. Bibcode 1877Natur..15..492.. DOI:10.1038/015492a0. 
  29. Stigler, S. M. (1989). „Francis Galton's Account of the Invention of Correlation”. Statistical Science 4 (2): 73–79. DOI:10.1214/ss/1177012580. 
  30. Pearson, K. (1900). „On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling”. Philosophical Magazine Series 5 50 (302): 157–175. DOI:10.1080/14786440009463897. 
  31. „Karl Pearson (1857–1936)”. Department of Statistical Science – University College London. 1975. Arhivirano iz originala na datum 25. 9. 2008. Pristupljeno 3. 6. 2017. 
  32. Fisher|1971|loc=Chapter II. The Principles of Experimentation, Illustrated by a Psycho-physical Experiment, Section 8. The Null Hypothesis
  33. OED quote: 1935 R. A. Fisher, The Design of Experiments ii. 19, "We may speak of this hypothesis as the 'null hypothesis', and it should be noted that the null hypothesis is never proved or established, but is possibly disproved, in the course of experimentation."
  34. Stanley, J. C. (1966). „The Influence of Fisher's "The Design of Experiments" on Educational Research Thirty Years Later”. American Educational Research Journal 3 (3): 223–229. DOI:10.3102/00028312003003223. 
  35. Box, JF (1980). „R. A. Fisher and the Design of Experiments, 1922-1926”. The American Statistician 34 (1): 1–7. DOI:10.2307/2682986. JSTOR 2682986. 
  36. Yates, F (1964). „Sir Ronald Fisher and the Design of Experiments”. Biometrics 20 (2): 307–321. DOI:10.2307/2528399. JSTOR 2528399. 
  37. Stanley, Julian C. (1966). „The Influence of Fisher's "The Design of Experiments" on Educational Research Thirty Years Later”. American Educational Research Journal 3 (3): 223–229. DOI:10.3102/00028312003003223. JSTOR 1161806. 
  38. Agresti, Alan; Hichcock, David B. (2005). „Bayesian Inference for Categorical Data Analysis”. Statistical Methods & Applications 14 (3): 298. DOI:10.1007/s10260-005-0121-y. 
  39. 39,0 39,1 Edwards, A.W.F. (1998). „Natural Selection and the Sex Ratio: Fisher's Sources”. American Naturalist 151 (6): 564–569. DOI:10.1086/286141. PMID 18811377. 
  40. Fisher, R.A. (1915) The evolution of sexual preference. Eugenics Review (7) 184:192
  41. Fisher, R. A. (1930). The Genetical Theory of Natural Selection. OUP Oxford. ISBN 978-0-19-850440-5. 
  42. Edwards, A.W.F. (2000) Perspectives: Anecdotal, Historial and Critical Commentaries on Genetics. The Genetics Society of America (154) 1419:1426
  43. Andersson, M. Sexual selection. 1994. ISBN 978-0-691-00057-2. pp.
  44. Andersson, M. and Simmons, L.W. (2006) Sexual selection and mate choice. Trends, Ecology and Evolution (21) 296:302
  45. Gayon, J. (2010) Sexual selection: Another Darwinian process. Comptes Rendus Biologies (333) 134:144
  46. Neyman, J (1934). „On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection”. Journal of the Royal Statistical Society 97 (4): 557–625. DOI:10.2307/2342192. JSTOR 2342192. 
  47. „Science in a Complex World - Big Data: Opportunity or Threat?”. Santa Fe Institute. 2 December 2013. 

Literatura

[uredi | uredi kod]

Spoljašnje veze

[uredi | uredi kod]
U Wikimedijinoj ostavi nalazi se članak na temu: Statistics