Analiza podataka
Istraživanje podataka (engl. data mining, koriste se i termini traženje podataka, prekopavanje podataka, rudarenje podataka, dejta majning) je proces otkrivanja šablona u velikim skupovima podataka, korišćenjem metoda mašinskog učenja, statistike i sistema baza podataka.[1] Istraživanje podataka predstavlja interdisciplinarnu podoblast informatike i statistike, čiji je opšti cilj izvlačenje informacija (korišćenjem inteligentnih metoda) iz skupova podataka i transformacija tih informacija u razumljivu strukturu radi dalje upotrebe.[1][2][3][4] Predstavlja korak analize u procesu "otkrivanja znanja u bazama podataka" (engl. knowledge discovery in databases, KDD).[5] Pored samog koraka analize, takođe uključuje i aspekte upravljanja podacima i bazama podataka, pretprocesiranja podataka, razmatranja statističkih modela i zaključaka, metrika zanimljivosti, razmatranja složenosti, postprocesiranja otkrivenih struktura, vizuelizacije i onlajn ažuriranja.[1] Razlika između analize i istraživanja podataka leži u tome što se analiza podataka koristi da bi se statistički modeli i hipoteze testirali na skupu podataka, npr. prilikom analize efikasnosti marketinške kampanje, nevezano od količine podataka. Za razliku od toga, istraživanje podataka koristi mašinsko učenje i statističke modele da otkrije tajne ili skrivene šablone u velikim količinama podataka.[6]
Termin "istraživanje podataka" je zapravo pogrešan, jer je cilj istraživanja izvlačenje šablona i znanja iz velikih količina podataka, a ne izvlačenje (rudarenje) samih podataka.[7] Takođe predstavlja žargonsku frazu[8] koja se često pripisuje bilo kom vidu obimne obrade podataka ili informacija (prikupljanju, izvlačenju, skladištenju, analizi i statistici) kao i bilo kojoj primeni računarskih sistema za podršku odlučivanju, uključujući i veštačku inteligenciju (npr. mašinsko učenje) i poslovnu inteligenciju. Knjiga Data mining: Practical machine learning tools and techniques with Java[9] (koja većinski pokriva teme mašinskog učenja) je prvenstveno trebalo da bude nazvana Practical machine learning, dok je termin istraživanje podataka (engl. data mining) dodat isključivo iz marketinških razloga.[10] Često su prikladniji opštiji termini (velikih razmera) kao što su analiza podataka i analitika ili, ukoliko se priča o stvarnim metodama, veštačka inteligencija i mašinsko učenje.
Stvaran zadatak istraživanja podataka jeste poluautomatska ili automatska analiza velike količine podataka kako bi se izvukli prethodno nepoznati, zanimljivi šabloni kao što su grupe zapisa podataka (analiza klastera), neobični zapisi (otkrivanje nepravilnosti) i zavisnosti (istraživanje pravilom asocijacije, istraživanje sekvencijalnih šablona). To obično uključuje korišćenje tehnika baza podataka kao što su prostorni indeksi. Ovi šabloni se onda mogu posmatrati kao vrsta kratkog pregleda ulaznih podataka i mogu se koristiti za dalju analizu ili, na primer, za mašinsko učenje i prediktivnu analitiku. Korak istraživanja podataka može, na primer, otkriti više grupa među podacima, koje se onda mogu koristiti kako bi se dobile preciznije prognoze rezultata korišćenjem sistema za podršku odlučivanju. Prikupljanje i priprema podataka, kao i tumačenje rezultata i izveštavanje, nisu deo koraka istraživanja podataka, ali kao dodatni koraci pripadaju KDD procesu.
Povezani pojmovi kopanje podataka, pecanje za podacima i njuškanje za podacima odnose se na primenu metoda istraživanja podataka da bi se uzorkovali delovi veće populacije skupova podataka koji su (ili bi mogli biti) premali da se na osnovu njih dođe do pouzdanih statističkih zaključaka o opravdanosti otkrivenih šablona. Ove metode se, ipak, mogu koristiti prilikom stvaranja novih hipoteza koje bi se koristile za testiranje na većim populacijama podataka.
Tokom 1960-ih, statističari i ekonomisti su koristili izraze poput pecanje podataka ili kopanje podataka koji su se odnosili na ono što su oni smatrali lošom praksom analiziranja podataka bez apriori hipoteze. Ekonomista Majkl Lovl (engl. Michael Lovell) izraz "istraživanje podataka" koristi na slično ključan način u članku objavljenom u Pregledu ekonomskih nauka (engl. Review of Economic Studies) 1983. Lovl ukazuje da se istraživanje podataka "skriva pod više različitih alijasa od "eksperimentisanje" (pozitivno) do "pecanje" ili pak "njuškanje"(negativno)."[11]
Izraz istraživanje podataka se pojavio oko 1990. u zajednici koja se bavila bazama podataka koje rade sa bazama podataka, uglavnom sa pozitivnom konotacijom. Kratkoročno tokom 1980-ih se koristio izraz "istraživanje baza podataka"™, ali nakon što ga je HNC, kompanija iz San Dijega, zaštitila kako bi predstavila Database Mining Workstation;[12] istraživači su se stoga okrenuli izrazu istraživanje podataka. Drugi korišćeni izrazi uključuju arheologija podataka, skupljanje informacija, otkrivanje informacija, izvlačenje znanja, itd. Gregori Pjatecki Šapiro (engl. Gregory Piatetsky-Shapiro) je osmislio izraz "otkrivanje znanja u bazama podataka" za prvu radionicu (KDD-1989) na istu temu i ovaj izraz je postao popularniji u zajednici veštačke inteligencije i mašinskog učenja. Međutim, izraz istraživanje podataka je postao popularniji u novinarskim i poslovnim zajednicama.[13] Trenutno, izrazi istraživanje podataka i otkrivanje znanja mogu da se koriste razmenljivo.
U akademskoj zajednici, glavni forumi za istraživanje su započeti 1995. kada je Prva internacionalna konferencija o istraživanju podataka i otkrivanju znanja (KDD-95) osnovana u Montrealu pod pokrićem AAAI. Koorganizatori su bili Usama Fajad i Ramsami Uturusami. Godinu dana kasnije, 1996. Usama Fajad je osnovao Kluverov časopis koji se zvao Istraživanje Podataka i Otkrivanje Znanja (engl. Data Mining and Knowledge Discovery) kao glavni urednik. Kasnije je pokrenuo SIGKDD pretplatu na časopis SIGKDD istraživanja (engl. SIGKDD Explorations) .[14] KDD Internacionalna konferencija je postala primarno najkvalitetnija konferencija u oblasti istraživanja podataka sa stopom prihvatanja predloga naučnih radova ispod 18%. Časopis Istraživanje podataka i otkrivanje znanja (engl. Data Mining and Knowledge Discovery) je primarni istraživački časopis u ovoj oblasti.
Vekovima su se šabloni ručno izvlačili iz podataka. Rane metode prepoznavanja šablona u podacima uključuju Bajesovu teoremu (1700-te god.) i regresionu analizu (1800-te god.). Širenje, sveprisutnost i rastuća moć kompjuterske tehnologije je dramatično povećala prikupljanje podataka, skladištni prostor i mogućnost manipulacije njima. Pošto su skupovi podataka postali veći i kompleksniji, direktni analiza podataka je poboljšavana indirektnom, automatskom obradom podataka, uz pomoć drugih otkrića u informatici poput neuronske mreže, analize klastera, genetskih algoritama, (1950-te god.) stabla odlučivanja i pravila odlučivanja (1960.) i metode potpornih vektora (1990-te god.). Istraživanje podataka je proces primenjivanja ovih metoda sa namerom otkrivanja skrivenih šablona[15] u veilkim skupovima podataka. Prevazilazi jaz između primenjene statistike i veštačke inteligencije (koja uglavnom pruža matematičku potporu) u upravljanju bazama podataka korišćenjem načina na koji se podaci skladište i indeksiraju u bazama podataka kako bi se algoritmi za učenje i otkrivanje izveli efikasnije, omogućavajući takvim metodama da budu primenjene na sve većim skupovima podataka.
Proces otkrivanja znanja u bazama podataka je obično definisan sledećim koracima:
- Selekcija
- Pretprocesiranje
- Transformacija
- Istraživanje podataka
- Interpretacija/procena[5]
Međutim, postoji mnogo varijacija ovog modela, kao što je Među-industrijski standardni proces za istraživanje podataka (engl. CRISP DM - Cross-industry standard process for data mining), koji definiše šest faza:
- Razumevanje poslovanja
- Razumevanje podataka
- Priprema podataka
- Modelovanje
- Procena
- Razvoj
ili pojednostavljen proces kao što je (1) pretprocesiranje, (2) istraživanje podataka i (3) potvrđivanje rezultata.
Ankete sprovedene u 2002, 2004, 2007. I 2014. godini, pokazuju da je CRISP-DM metodologija najkorišćenija među rudarima podataka.[16] SEMMA je bio jedini drugi standard istraživanja podataka u ovim anketama. Međutim, 3 do 4 puta više ljudi je reklo da koristi CRISP-DM metodologiju. Nekoliko timova istraživača je objavilo preglede modela procesa istraživanje podataka,[17][18] a Azvedo i Santos su sproveli poređenje CRISP-DM i SEMMA modela 2008. godine.[19]
Pre korišćenja algoritama za istraživanje podataka, mora se sastaviti ciljani skup podataka. Kako istraživanje podataka može da otkrije jedino šablone koji zapravo postoje u podacima, ciljani skup podataka mora da bude dovoljno veliki da sadrži te šablone, ali i da bude dovoljno mali da bi mogao da se istražuje u prihvatljivim vremenskim granicama. Čest izvor podataka jesu tržište podataka i skladište podataka. Pretprocesiranje je neophodno za analizu multivarijabilnih skupova podataka pre istraživanja podataka. Ciljani skup podataka se zatim sređuje. Sređivanje podataka uklanja sva posmatranja koja sadrže šum ili kojima nedostaju vrednosti.
Istraživanje podataka se sastoji iz šest čestih tipova zadataka:[5]
- Otkrivanje nepravilnosti(atipičnih podataka/promena/odstupanja) - otkrivanje neobičnih zapisa podataka koji mogu biti zanimljivi ili grešaka u podacima koje zahtevaju dalje istraživanje.
- Učenje pravilom asocijacije(modelovanje zavisnosti) - traganje za vezama između promenljivih. Na primer, supermarket može da skuplja podatke o kupovnim navikama kupaca. Korišćenjem učenja pravilom asocijacije, supermarket može da odredi koji proizvodi se često kupuju zajedno, a zatim da iskoristi tu informaciju za potrebe marketinga. Ovo se ponekad naziva analiza potrošačke korpe.
- Klasterovanje - zadatak otkrivanja grupa i struktura u podacima koji su na neki način slični, bez korišćenja već poznatih struktura u podacima.
- Klasifikacija - zadatak generalizacije poznatih struktura koje je potrebno primeniti nad novim podacima. Na primer, imejl program može da klasifikuje imejlove kao „legitimni” ili kao „spem”.
- Regresija - pokušava da pronađe funkciju koja oblikuje podatke sa najmanjom greškom, tj. Za procenu veza između podataka ili skupova podataka.
- Sažimanje - pruža kompaktniji uvid u skup podataka, uključujući vizualizacije i generisanje izveštaja.
Istraživanje podataka se može nesvesno loše iskoristiti, što zatim dovodi do rezultata koji na prvi pogled deluju bitno; ali zapravo ne predviđaju buduće ponašanje niti mogu biti reprodukovani na novim uzorcima podataka, te nemaju nikakve koristi. Ovakvi rezultati su česti nakon istraživanja previše hipoteza i nakon lošeg statističkog testiranja hipoteza. Jednostavan oblik ovog problema u mašinskom učenju se zove preprilagođavanje modela. Kako se taj problem može pojaviti u različitim fazama procesa, to dovodi do toga da razdvajanje na trening i test skupove - kada je to uopšte moguće - nije dovoljno da spreči pojavu ovog problema.[20]
Poslednji korak u otkrivanju znanja iz podataka je potvrđivanje da šabloni koje su proizveli algoritmi istraživanja podataka, postoje u celom skupu podataka. Nisu svi šabloni koje su ti algoritmi pronašli nužno tačni. Često se dešava da algoritmi istraživanja podataka pronađu šablone u trening skupu koji ne postoje u celokupnom skupu podataka. Ovo se zove pretreniranje modela. Kako bi se ovaj problem prevazišao, u proceni se koristi test skup podataka na kojima algoritmi istraživanja nisu trenirani. Naučeni šabloni se primenjuju na tom test skupu, a krajnji rezultat se poredi sa traženim rezultatom.
Na primer, algoritam istraživanja podataka koji pokušava da razdvoji „spem” i „legitimne” imejlove, bio bi treniran na trening skupu imejl uzoraka. Po završetku treniranja, naučeni šabloni se primenjuju na test skupu imejlova na kom algoritam nije bio treniran. Preciznost šablona se zatim meri po tome koliko imejlova je tačno klasifikovano. Postoji veliki broj statističkih metoda za procenu algoritma, kao što su na primer ROC krive(engl. Receiver operating characteristic) .
Ili na primeru regresije, algoritam istraživanja bi bio takođe treniran na trening skupu, ali bi predviđao na primer temperaturu sledećeg dana. Zatim bi se taj naučeni šablon primenio na test skupu. Primer statističke metode za procenu regresionih modela je koren srednje kvadratne greške (eng. Root Mean Squared Error, RMSE).
Ako naučeni šabloni ne dostižu željene standarde, neophodno je da naknadno preispitamo i izmenimo korake pretprocesiranja i istraživanja podataka. Ako naučeni šabloni dostižu željene standarde, onda je poslednji korak da se protumače ti šabloni, a zatim i pretvore u znanje.
Glavno telo u struci je Specijalna Ineteresna grupa (SIG) Udruženja za računarske mašine (engl. Association for Computing Machinery, ACM) za otkrivanje znanja i rudarenje podataka (SIGKDD)”. .[21][22] Od 1989. godine, ACM SIG domaćin je godišnje internacionalne konferencije i objavljuje svoj zapisnik[23], a od 1999. godine objavljuje svoj dvogodišnji akademski žurnal čije je ime SIGKDD Explorations.[24]
Konferencije za rudarenje podataka u informatici sadrže:
- CIKM konferencija - ACM konferencija o upravljanju informacijama i podacima
- Evropska konferencija o mašinskom učenju i principima i praksama otkrivanja znanja u bazama podataka
- KDD konferencija - ACM SIGKDD konferencija o otkrivanju znanja i istraživanju podataka
Teme o istraživanju podataka su takođe prisutne na mnogim konferencijama o upravljanju podataka/bazama podataka kao što su ICDE konferencija, SIGMOD konferencija i Internacionalna konferencija o veoma velikim bazama podataka.
Postojali su napori da se definišu standardi za proces istraživanja podataka, na primer evropski međuindustrijski standardni proces za istraživanje podataka (CRISP-DM 1.0) iz 1999. godine i standard za istraživanje podataka u Javi (JDM 1.0) iz 2004. godine. Razvoj naslednika ovim procesima (CRISP-DM 2.0 i JDM 2.0) bio je aktivan u 2006. ali je od tada zaustavljen. JDM 2.0 je povučen pre dostizanja krajnje verzije.
Za razmenu izvučenih modela - posebno za korišćenje u prediktivnoj analitici - ključni standard je PMML (eng. Predictive Model Markup Language), koji je jezik baziran na XML-u, razvijan od strane Grupe za istraživanje podataka (eng. Data Mining Group, DMG) i podržan kao format razmene od mnogih aplikacija za istraživanje podataka. Kao što ime kaže, pokriva samo prediktivne modele, poseban zadatak velike važnosti za poslovne aplikacije. Međutim, nastavci za podržavanje(na primer) klasterovanja potprostora bili su predloženi nezavisno od DMG.[25]
Istraživanje podataka se koristi kad god ima dostupnih digitalnih podataka. Značajni primeri istraživanja podataka mogu se naći u poslovanju, medicini, nauci i nadzoru.
Dok termin "istraživanje podataka" nema etičkih implikacija, često se povezuje sa istraživanjem informacija povezanih sa ljudskim ponašanjem (etičkim ili ne).[26]
Način na koji se istraživanje podataka koristi može u određnom kontekstu ili slučajevima dovesti u pitanje privatnost, zakonitost i etiku.[27] Naročito, vlada za istraživanje podataka ili komercijalni skupovi podataka za potrebe nacionalne bezbednosti ili sprovođenja zakona, kao što je u Programu svesne informisanosti (engl. Total Information Awareness Program) ili u ADVISE-u, pokrenuli su pitanje o privatnosti.[28][29]
Istraživanje podataka zahteva njihovo pripremanje koje može otkriti informacije ili šablone koji mogu ugroziti obaveze poverljivosti i privatnosti. Uobičajen način da se to dogodi je agregacija podataka. Ona obuhvata kombinovanje podataka (eventualno sa različitih izvora) na način koji olakšava analizu (ali to takođe može učiniti identifikaciju privatnih ili podataka na individualnom nivou deduktivnim ili na drugi način vidljivim).[30] Ovo nije istraživanje podataka per se, već rezultat prethognog pripremanja podataka - za potrebe - analize. Pretnja privatnosti pojedinca stupa na snagu kada podaci, kada se jednom kompajliraju, uzrokuju da rudar podataka, ili bilo ko ko ima pristup novosastavljenom skupu podataka, bude u mogućnosti da identifikuje određene pojedince, posebno kada su podaci bili izvorno anonimni.[31][32][33]
Preporučuje se da se pojedinac upozna sa sledećim pre prikupljanja podataka:[30]
- svrha prikupljanja podataka i svih (poznatih) projekata istraživanja podataka;
- kako će podaci biti iskorišćeni;
- ko će moći da rudari podatke i koristi njih i njihove derivate;
- stanje bezbednosti koje obuhvata pristup podacima;
- kako se prikupljeni podaci mogu ažurirati.
Podaci se takođe mogu modifikovati tako da postanu anonimni, tako da se pojedinci ne mogu lako identifikovati.[30] Međutim, čak i "deidentifikovani"/"anonimizovani" skupovi podataka mogu potencijalno da sadrže dovoljno informacija koje omogućuju identifikaciju pojedinaca, kao što se dogodilo kada su novinari uspeli da pronađu nekoliko osoba na osnovu skupa istorije pretraživanja koje je nehotice objavio AOL.[34]
Nehotično otkrivanje ličnih informacija, koje vode do provajdera, krši Praksu poštene informacije. Ova nesmotrenost može prouzrokovati finansijske, emocionalne ili telesne povrede pojedincima. U jednom slučaju kršenja privatnosti, pokrovitelji Valgrinsa podneli su tužbu protiv kompanije 2011. godine zbog prodaje informacija o receptu kompanijama za istraživanje podataka, koje su zatim dostavljale te podatke farmaceutskim kompanijama.[35]
Evropa ima prilično jake zakone o privatnosti i u toku su napori za dalje jačanje prava potrošača. Međutim, Američko-Evropski "Principi sigurne luke" (engl. U.S.-E.U. Safe Harbor Principles) trenutno efektivno dozvoljavaju američkim kompanijama iskorišćavanje privatnosti evropskih korisnika. Kao posledica Razotkrivanja globalnog nadzora (engl. global surveillance disclosures) Edvarda Snuodena, došlo je do pojačane rasprave o opozivu ovog sporazuma, naročito zbog potpune izloženosti podataka Nacionalnoj sigurnosnoj agenciji, a pokušaji da se postigne sporazum su propali.Šablon:Potreban citat
U Sjedinjenim Američkim Državama, Kongres SAD se bavio pitanjima privatnosti usvajanjem regulatornih kontrola kao što je Zakon o prenosivosti i odgovornosti za zdravstveno osiguranje (engl. Health Insurance Portability and Accountability Act, HIPAA). HIPAA zahteva od pojedinaca da daju svoj "informisani pristanak" u vezi informacija koje pružaju i nameravanim sadašnjim i budućim upotrebama. Prema članku objavljenom u Biotech Business Week-u, " U praksi, HIPAA možda neće ponuditi veću zaštitu od dugogodišnjih propisa u oblasti istraživanja, " kaže AAHC. "Važnije, cilj pravila zaštite putem informisanog pristanka približava se nivou nerazumljivosti za prosečne pojedince.” [36] Ovo naglašava potrebu za anonimnošću podataka u agregaciji podataka i rudarskim praksama.
Zakonodavstvo SAD-a o privatnosti informacija kao što je HIPAA i Zakon o porodičnim obrazovnim pravima i privatnosti (engl. Family Educational Rights and Privacy Act, FERPA), odnosi se samo na specifične oblasti na koje se odnosi svaki takav zakon. Korišćenje istraživanja podataka od strane većine preduzeća u SAD ne kontroliše nijedno zakonodavstvo.
Zbog nedostatka fleksibilnosti u evropskom zakonu o autorskim pravima i bazama podataka, istraživanje radova sa autorskim pravima kao što je istraživanje internet sadržaja bez dozvole vlasnika autorskih prava nije legalno. Dok je u Evropi baza podataka koja je skup čistih podataka verovatno bez autorskih prava, ali prava baze podatka možda postoje, što znači da istraživanje podatka postaje predmet propisa Direktive baza podataka. Na predlog Hargrivsovog pregleda (engl. eng. Hargreaves review), ovo je uzrokovalo da vlada Ujedinjenog kraljevstva izmeni svoj zakon o autorskim pravima 2014. godine[37] da bi dozvolila istraživanje sadržaja kao ograničenje i izuzetak. Tek sledeća zemlja na svetu posle Japana, koja je uvela izuzetak 2009. godine za istraživanje podataka. Međutim, zbog restrikcija Direktive autorskih prava, izuzetak Ujedinjenog kraljevstva dozvoljava samo istraživanje za nekomercijalne svrhe. Zakon autorskih prava Ujedinjenog kraljevstva takođe ne dozvoljava promenu ove mere ugovornim uslovima. Evropska komisija olakšala je diskusiju zainteresovanim stranama o istraživanju teksta i podataka 2013. godine pod nazivom “Licence za Evropu” (eng. Licences for Europe).[38] Fokus na rešenje ovog pravnog pitanja koje su licence, a ne ograničenja i izuzeci dovelo je predstavnike univerziteta, istraživača, biblioteka, grupa civilnog društva i izdavače otvorenog pristupa da napuste dijalog zainteresovanih strana u maju 2013. godine.[39]
U kontrast Evropi, fleksibilna priroda američkog zakona o autorskim pravima, a posebno poštene upotrebe znači da istraživanje sadržaja u Americi, kao i ostalim državama sa sličnim zakonom kao što su Izrael, Tajvan, Južna Koreja smatra se legalnim. Pošto je istraživanje sadržaja transformativno, što znači da ne zamenjuje originalno delo, smatra se da je zakonito pod poštenom upotrebom. Na primer, kao deo u nagodbi Gugl knjiga, presedavajući sudija na slučaju presudio je da je Guglov projekat digitalizacije knjiga sa autorskim pravima zakonit, delom zbog transformativnog korišćenja koji je projekat prikazivao - jedan od kojih je istraživanje teksta i podatka.[40]
Sledeće aplikacije su dostupne uz besplatne ili licence otvorenog koda. Takođe je dozvoljen javni pristup izvršnom kodu aplikacija.
- Carrot2 : okvir za klasterovanje teksta i rezultata pretrage.
- Chemicalize.org: "rudar" hemijskih struktura i veb pretraživač
- ELKI: Univerzitetski istraživački projekat za naprednu analizu klastera i sa metodama otkrivanja autlajera, napisan u Java programskom jeziku.
- GATE: alat za obradu prirodnih jezika (engl. Natural language processing, NLP) i inženjering jezika.
- KNIME: rudar Konstanc informacija (engl. “The Konstanz Information Miner”), lak za korišćenje i razumljiv okvir za detaljnu analizu podataka.
- Masivna onlajn analiza (engl. Massive Online Analysis, MOA): Proces istraživanja velikog skupa podataka u realnom vremenu sa alatima za neočekivane promene, napisan u Java programskom jeziku.
- MEPX: višeplatformni alat za probleme regresije i klasifikacije zasnovan na varijanti genetskog programiranja.
- ML-Flex: softverski paket koji omogućava korisnicima da integrišu pakete mašinskog učenja drugih korisnika napisanih u bilo kom jeziku, da izvrše analize klasifikacije paralelno preko više čvorova, i da naprave HTML izveštaje rezultata klasifikacije.
- mlpack: kolekcija spremnih algoritama mašinskog učenja, napisana u C++ programskom jeziku.
- NLTK (eng. Natural Language Toolkit): paket biblioteka i programa za simboličnu i statističku obradu prirodnih jezika za Python programski jezik.
- OpenNN: otvorena biblioteka za neuronske mreže.
- Orange: softverski paket za istraživanje podataka i mašinsko učenje na osnovu komponenti, napisan u Python programskom jeziku.
- R: programski jezik i softversko okruženje za statističko računarstvo, istraživanje podataka i grafiku. On je deo GNU projekta.
- scikit-learn: biblioteka za mašinsko učenje otvorenog koda za Python programski jezik.
- Torch: biblioteka za duboko učenje otvorenog koda za Lua programski jezik i okvir za naučno računarstvo sa širokim rasponom podrške algoritama mašinskog učenja.
- UIMA (eng. Unstructured Information Management Architecture): komponentni okvir za analizu nestrukturiranog sadržaja kao što su tekst, audio i video sadržaj - razvijen od strane IBM-a.
- Veka (eng. Weka): paket softverskih aplikacija za mašinsko učenje napisan u Java programskom jeziku.
Sledeće aplikacije su dostupne uz vlasničke licence:
- Angoss KnowledgeSTUDIO: alat za istraživanje podataka.
- Klarabridž (eng. Clarabridge): proizvod za analizu teksta.
- KXEN Modeler: alat za istraživanje podataka proizveden od strane KXEN Inc..
- LIONsolver: integrisana softverska aplikacija za istraživanje podataka, poslovnu inteligenciju, i modelovanje koje implementira LION (eng. Learning and Intelligent OptimizatioN) pristup.
- Megaputer Intelligence: softver za istraživanje podataka i teksta se zove PolyAnalyst.
- Majkrosoftove usluge analize (eng. Microsoft Analysis Services): softver za istraživanje podataka proizveden od strane Majkrosofta.
- NetOwl: paket proizvoda za analitiku višejezičkog teksta i entiteta, koji omogućavaju istraživanje podataka.
- OpenText Big Data Analytics: vizuelno istraživanje podataka i prediktivna analitika od Open Text korporacije.
- Oracle Data Mining: softver za istraživanje podataka od Orakl korporacije.
- PSeven: platforma za automatizaciju inženjeringa simulacija i analiza, višedisciplinarne optimizacije i istraživanja podataka od DATADVANCE-a.
- Qlucore Omics Explorer: softver za istraživanje podataka.
- RapidMiner: okruženje za eksperimente mašinskog učenja i istraživanja podataka.
- SAS Enterprise Miner: softver za istraživanje podataka proizveden od strane SAS instituta.
- SPSS Modeler: softver za istraživanje podataka proizveden od strane IBM-a.
- STATISTICA Data Miner: softver za istraživanje podataka proizveden od strane StatSoft-a.
- Tanagra: softver za vizuelno orijentisano istraživanje podataka, ali i podučavanje.
- Vertica: softver za istraživanje podataka od Hjulet-Pakarda.
Nekoliko istraživača i organizacija je sprovelo pregled alata za istraživanje podataka i anketiranje rudara podataka. Oni otkrivaju neke prednosti i mane softverskih paketa. Takođe obezbeđuju pregled ponašanja, preferencija i stavova rudara podataka. Neki od tih izveštaja sadrže:
- Hurvicov indeks pobede (engl. Hurwitz Victory Index): Izveštaj za naprednu analitiku kao alat za procenu istraživanja tržišta, ističe i raznoliku upotrebu tehnologije za naprednu analitiku i prodavace koji proizvode te aplikacije. Skorašnje istraživanje.
- Rekserova analitika anketa rudara podataka (2007—2015)[41]
- 2011. Vajlijevi interdisciplinarni pregledi (engl. Wiley Interdisciplinary Reviews): istraživanje podataka i otkrivanje znanja.[42]
- Foresterov izveštaj (engl. Forrester Research) istraživanja rešenja prediktivne analitike i istraživanje podataka 2010. godine.[43]
- Gartnerov izveštaj ,,Magičnog kvadranta" 2008. godine.[44]
- Robert A. Nizbetova serija od tri članka ,,Alat za istraživanje podataka: Koji je najbolji za marketing orijentisan kupcima?" 2006. godine.[45]
- Hogton et alov (engl. Haughton et al), pregled softverskih paketa za istraživanje podataka u naučnom časopisu „The American Statistician” 2003. godine.[46]
- Gebelova i Gruenvaldova ,,Anketa o softverskim alatima za istraživanje podataka i otkrivanje znanja" u SIGKDD istraživanjima 1999. godine.[47]
- ↑ 1,0 1,1 1,2 „Data Mining Curriculum”. ACM SIGKDD. 30. 4. 2006. Pristupljeno 27. 1. 2014.
- ↑ Clifton, Christopher (2010). „Encyclopædia Britannica: Definition of Data Mining”. Pristupljeno 9. 12. 2010.
- ↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). „The Elements of Statistical Learning: Data Mining, Inference, and Prediction”. Arhivirano iz originala na datum 10. 11. 2009. Pristupljeno 7. 8. 2012.
- ↑ Han, Kamber, Pei, Jaiwei, Micheline, Jian (9. 6. 2011). Data Mining: Concepts and Techniques (3rd izd.). Morgan Kaufmann. ISBN 978-0-12-381479-1.
- ↑ 5,0 5,1 5,2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). „From Data Mining to Knowledge Discovery in Databases”. Pristupljeno 17. 12. 2008.
- ↑ Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181-193. doi:10.1007/s11628-006-0014-7
- ↑ Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. str. 5. ISBN 978-1-55860-489-6. »Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long«
- ↑ OKAIRP 2005 Fall Conference, Arizona State University Arhivirano 1 February 2014[nepoklapanje datuma] na Wayback Machine-u
- ↑ Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30. 1. 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 izd.). Elsevier. ISBN 978-0-12-374856-0.
- ↑ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). „WEKA Experiences with a Java open-source project”. Journal of Machine Learning Research 11: 2533-2541. »the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.«
- ↑ Lovell, Michael C. (1983). „Data Mining”. The Review of Economics and Statistics 65 (1): 1. DOI:10.2307/1924403.
- ↑ Mena, Jesus. (2011). Machine learning forensics for law enforcement, security, and intelligence. Boca Raton, FL: CRC Press. ISBN 9781439860700. OCLC 753970361.
- ↑ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). "Lesson: Data Mining, and Knowledge Discovery: An Introduction". Introduction to Data Mining. KD Nuggets. Приступљено 30 August 2012.
- ↑ Fayyad, Usama (15 June 1999). "First Editorial by Editor-in-Chief". SIGKDD Explorations. 13 (1): 102. doi:10.1145/2207243.2207269. Приступљено 27 December2010.
- ↑ Kantardzic, Mehmed. (2003). Data mining : concepts, models, methods, and algorithms. Hoboken, NJ: Wiley-Interscience. ISBN 978-0-471-22852-3. OCLC 51437378.
- ↑ Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
- ↑ Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model. In Data Mining and Knowledge Discovery in Real Life Applications, Book edited by: Julio Ponce and Adem Karahoca. . ISBN 978-3-902613-53-0. pp. 438-453, February 2009, I-Tech, Vienna, Austria.
- ↑ Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA DOI:10.1017/S0269888906000737
- ↑ Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview Arhivirano 9 January 2013[nepoklapanje datuma] na Wayback Machine-u. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
- ↑ Hawkins, Douglas M (2004). „The problem of overfitting”. Journal of Chemical Information and Computer Sciences 44 (1): 1-12. DOI:10.1021/ci0342472. PMID 14741005.
- ↑ „Microsoft Academic Search: Top conferences in data mining”. Microsoft Academic Search. Arhivirano iz originala na datum 2014-11-19.
- ↑ „Google Scholar: Top publications - Data Mining & Analysis”.
- ↑ „International Conferences on Knowledge Discovery and Data Mining, ACM, New York.”. Arhivirano iz originala na datum 2010-04-30. Pristupljeno 2. 5. 2019.
- ↑ SIGKDD Explorations, ACM, Njujork
- ↑ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). „An extension of the PMML standard to subspace clustering models”. Proceedings of the 2011 workshop on Predictive markup language modeling - PMML '11. str. 48. DOI:10.1145/2023598.2023605. ISBN 978-1-4503-0837-3.
- ↑ Seltzer, William (2005). „The Promise and Pitfalls of Data Mining: Ethical Issues”. ASA Section on Government Statistics (American Statistical Association).
- ↑ Pitts, Chip (15. 3. 2007). „The End of Illegal Domestic Spying? Don't Count on It”. Washington Spectator. Arhivirano iz originala na datum 29. 10. 2007.
- ↑ Taipale, Kim A. (15. 12. 2003). „Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data”. Columbia Science and Technology Law Review 5 (2). OCLC 45263753. SSRN 546782. Arhivirano iz originala na datum 05. 11. 2014. Pristupljeno 03. 05. 2019.
- ↑ Resig, John. „A Framework for Mining Instant Messaging Services”. Pristupljeno 16. 3. 2018.
- ↑ 30,0 30,1 30,2 Think Before You Dig: Privacy Implications of Data Mining & Aggregation Arhivirano 17 December 2008[nepoklapanje datuma] na Wayback Machine-u, NASCIO Research Brief, September 2004
- ↑ Ohm, Paul. „Don't Build a Database of Ruin”. Harvard Business Review.
- ↑ Darwin Bond-Graham, Iron Cagebook - The Logical End of Facebook's Patents, Counterpunch.org, 2013.12.03
- ↑ Darwin Bond-Graham, Inside the Tech industry's Startup Conference, Counterpunch.org, 2013.09.11
- ↑ AOL search data identified individuals, SecurityFocus, August 2006
- ↑ Kshetri, Nir (2014). „Big data׳s impact on privacy, security and consumer welfare”. Telecommunications Policy 38 (11): 1134-1145. DOI:10.1016/j.telpol.2014.10.002.
- ↑ Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic
- ↑ UK Researchers Given Data Mining Right Under New UK Copyright Laws. Arhivirano 9 June 2014[nepoklapanje datuma] na Wayback Machine-u Out-Law.com. Preuzeto 14. Novembar 2014.
- ↑ „Licences for Europe - Structured Stakeholder Dialogue 2013”. Evropska komisija. Pristupljeno 14. 11. 2014.
- ↑ „Text and Data Mining:Its importance and the need for change in Europe”. Association of European Research Libraries. Arhivirano iz originala na datum 2014-11-29. Pristupljeno 14. 11. 2014.
- ↑ „Judge grants summary judgment in favor of Google Books — a fair use victory”. Lexology. Pristupljeno 14. 11. 2014.
- ↑ Karl Rexer, Heather Allen, & Paul Gearan (2011); Understanding Data Miners, Analytics Magazine, May/June 2011 (INFORMS: Institute for Operations Research and the Management Sciences).
- ↑ Mikut, Ralf; Reischl, Markus (September–October 2011). „Data Mining Tools”. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 1 (5): 431-445. DOI:10.1002/widm.24.
- ↑ Kobielus, James; The Forrester Wave: Predictive Analytics and Data Mining Solutions 2010 Arhivirano 2019-05-04 na Wayback Machine-u, Forrester Research, 1 July 2008
- ↑ Herschel, Gareth; Magic Quadrant for Customer Data-Mining Applications Arhivirano 2009-10-20 na Wayback Machine-u, Gartner Inc., 1 July 2008
- ↑ Nisbet, Robert A. (2006); Data Mining Tools: Which One is Best for CRM? Part 1 Arhivirano 2016-12-23 na Wayback Machine-u, Information Management Special Reports, January 2006
- ↑ Haughton, Dominique; Deichmann, Joel; Eshghi, Abdolreza; Sayek, Selin; Teebagy, Nicholas; and Topi, Heikki (2003); A Review of Software Packages for Data Mining, The American Statistician, Vol. 57, No. 4, pp. 290–309
- ↑ Goebel, Michael; Gruenwald, Le (jun 1999). „A Survey of Data Mining and Knowledge Discovery Software Tools”. SIGKDD Explorations 1 (1): 20-33.
- Kabena, Piter; Hađnan, Pablo; Štadler, Rolf; Verhes, Džap; Zanasi, Alesandro (1997); Otkrivanje istraživanja podataka: Od koncepta do implementacije, Hala Prentis. . ISBN 978-0-13-743980-5. pp.
- M.S. Šen, Dž. Han, F.S. Ju (1996) "Istraživanje podataka: pregled iz ugla baza podataka". Inženjering znanja i podataka, IEEE Transactions on 8 (6), 866–883
- Feldman, Ronen; Zenger, Džejms (2007); Priručnik za tekstualno istraživanje, Štampa univerziteta Kembridž. . ISBN 978-0-521-83657-9. pp.
- Guo, Jajk; i Grosman, Robert (urednici) (1999); Istraživanje podataka visokih performansi: Algoritmi skaliranja, primena i sistemi, Akademski izdavači Kluver
- Han, Đavej, Mišelin Kember, i Đan Pej. istraživanje podataka: koncepti i tehnike. Morgan Kaufman, 2006.
- Hesti, Trevor, Tibširani, Robert i Fridman, Džerom (2001); Elementi statističkog učenja: Istraživanje podataka, zaključak, i prognoza, Springer. . ISBN 978-0-387-95284-0. pp.
- Lu, Bing (2007, 2011); Istraživanje veb podataka: Istraživanje linkova, sadržaja i potrošnje podataka, Springer. . ISBN 978-3-540-37881-5. pp.
- Marfi, Kris (16. 5. 2011). „Da li je istraživanje podataka slobodan govor?”. ''Information Week'': 12.
- Nišbet, Robert; Elder, Džon; Majner, Geri (2009); Priručnik statističke analize i primene istraživanja podataka, Akademska štampa/Elsvir. . ISBN 978-0-12-374765-5. pp.
- Ponselet, Paskal; Maseglia, Florent; i Tejseir, Magelon (urednici) (Oktobar 2007); "Šabloni u istraživanju podataka: Nove metode i primene", Reference informatičke nauke. . ISBN 978-1-59904-162-9. pp.
- Tan, Pen-Nin; Štainbah, Mihael; i Kumar, Vipin (2005); Uvod u istraživanje podataka. . ISBN 978-0-321-32136-7. pp.
- Teodoridis, Sergios; and Kotrombas, Konstantinos (2009); Prepoznavanje šablona, 4. verzija, Akademska šampa. . ISBN 978-1-59749-272-0. pp.
- Vais, Šolom M.; and Indirkja, Nitin (1998); Prediktivno istraživanje podataka, Morgan Kaufman
- Viten, Ijan H.; Frenk, Ajb; Hol, Mark A. (2011). Istraživanje podataka: Alatke i tehnike praktičnog mašinskog učenja (3 izd.). Elsvir. ISBN 978-0-12-374856-0. (Takođe pogledati Besplatan Weka softver)
- Je, Nong (2003); Priručnik istraživanja podataka, Mava, N. Dž: Lorens Erlbom
- Metode
- Istraživanje pomoću agenta
- Otkrivanje nepravilnosti/atipičnosti/promena
- Učenje putem asocijativnih pravila
- Bajesove mreže
- Klasifikacija
- Analiza klastera
- Stabla odlučivanja
- Kolektivno učenje
- Faktorska analiza
- Genetiski algoritmi
- Istraživanje namera
- Klasifikacioni sistemi koji uče
- Višelinearno međuprostorsko učenje
- Neuronske mreže
- Regresiona analiza
- Istraživanje sekvenci
- Struktuirana analiza podataka
- Metod potpornih vektora
- Istraživanje teksta
- Analiza vremenskih serija
- Oblasti primene
- Primeri primena
- Povezane teme
Istraživanje podataka se bavi analizom podataka; za informacije o izvlačenju informacija iz podataka, pogledajte:
- Ostali izvori
- Knowledge Discovery Software na Projektu Open Directory
- Data Mining Tool Vendors na Projektu Open Directory