20.12.2011 12:43
Andmeanalüüs muutub tõhusamaks
Uus tööriist aitab teadlastel avastada tohututes
andmekogudes seni märkamatuks jäänud seaduspärasi ja seoseid.
Kõiki Facebooki profiile sisaldava andmekogu käsitsi
analüüsimine võtaks inimesel aega sajandeid, kuid keerulised arvutiprogrammid
suudavad seda teha ülikiiresti. Siiski ei ole selline tarkvara võimeline suurte
andmehulkade puhul teadlasi abistama
püüdlustes erapooletult tuvastada erinevat tüüpi seaduspärasusi.
Harvardi ülikooli ja Broadi instituudi teadlaste loodud
süsteem suudab aga paljastada suurtes andmehulkades leiduvaid seaduspärasusi,
mida ükski teine tarkvara ei suuda. Nime
MINE (ing k Maximal Information-based Nonparametric Exploration) kandev süsteem
suudab välja sõeluda andmekirjeldustes peituvad arvukad seaduspärasused.
"Parim viis nende seoste avastamiseks on andmete
käsitsianalüüs, kuid andmekogud on sedavõrd suured, et see pole võimalik. MINE
annab meile võimaluse otsida neid seoseid andmekaeve abil,“ selgitas ajakirjas
Science avaldatud uuringu autor Pardis Sabeti Harvardist.
Teadlased testisid MINE'i erinevatel suurtel
andmebaasidel, lastes sel teostada enam kui 22 miljonit võrdlustehet. Programm
suutis välja tuua mitusada varem märkamatuks jäänud huvipakkuvat seaduspära.
"Sellise analüüsi eesmärk on leida väga erinevate
mõõtmete ja paljude võimalike korrelatsioonidega andmete seast üles kõige
olulisemad seosed,“ selgitas uuringu
autor Michael Mitzenmacher. "Meie silmis on MINE uurimistööriist, mis
suudab leida seaduspärasusi ja neid õigesti reastada."
Uus tööriist suudab tuvastada väga erinevaid seaduspärasi
ning kirjeldada neid teadlasele huvi pakkuvate erinevate parameetrite alusel.
Suurtes ja keerulistes andmekogudes seaduspärasusi leidev
ja neid korrastav süsteem on uurimistöös suureks abiks. Tavalise statistilise
tarkvara abil saavad teadlased küll leida suurtest andmehulkadest konkreetseid mustreid,
kuid puudub võimalus sorteerida ja võrrelda erinevat tüüpi võimalikke seoseid.
MINE suudab näiteks liigitada arvukaid korduvalt
esinevaid sündmusi või maailma eri riikide terviseandmebaasides peituvaid
andmehulkasid. "Standardsed meetodid näevad üht seaduspära signaalina ning
ülejäänuid mürana," selgitas uuringu kaasautor David Reshef.
"Põhimõtteliselt võib ühes andmekogus olla eri tüüpi seoseid. Meie meetodi
eripära seisneb selles, et see otsib andmetest igasuguseid selgelt eristuvaid
struktuure, püüdes leida neid kõiki."
MINE’i testimiseks lasid teadlased sel analüüsida Maailma
tervishoiuorganisatsioonilt ja selle
partneritelt saadud sotsiaalseid, majanduslikke, poliitilisi ja terviseandmeid.
Nad võrdlesid leibkonna sissetuleku ja naiste rasvumise vahelist seost ning
avastasid analüüsitud andmete põhjal kaks selgelt eristuvat trendi. Rasvumise
määr kasvas koos sissetulekuga, kuid saavutas sissetuleku teatud tasemeni
jõudes tipu ning hakkas sealt edasi langema. Vaikse ookeani saartel asuvates
riikides, kus naise lihavus näitab tema staatust, esines aga järsk trend, mille
puhul rasvumise määr kasvab koos sissetulekuga.