2015. aastast ilmuvad Novaatori uudised Eesti rahvusringhäälingu veebilehe teadusrubriigis ERR Novaator (novaator.err.ee).

Novaator - Kuidas teha arvutusi delikaatsete andmete põhjal?
14.11.2010 14:48

Kuidas teha arvutusi delikaatsete andmete põhjal?

Villu Päärt
Skype: villu.paart
villu.paart@ut.ee
Loe kommentaare (11)
Samal teemal (1)
Tagasi
Edasi

Foto:

Kes müüb rohkem piima? Kohvi? Juustu? Kui kolm Eesti suurimat poeketti tahaks sellele küsimusele vastust, siis tänasel päeval pole see konkurendi raamatupidamises nuhkimata võimalik.

Kuid see ei pruugi jääda kauaks nii.

Tartu Ülikooli arvutiteaduse doktorant ja aktsiaseltsi Cybernetica teadur Dan Bogdanov veab projekti Sharemind, mis võimaldab teha arvutusi nii, konfidentsiaalsed andmed seejuures ei leki.

Sharemind võimaldaks näiteks poekettide müügiandmete põhjal leida vastuseid neile küsimustele, ilma, et Selver näeks RIMI või Maxima Säästumarketi müügiandmeid.

“Kauplusest saadetud andmed jagatakse kolmeks, algoritm krüpteerib need andmed ning iga osa saadetakse ühele andmebaasile,” kirjeldas Bogdanov. “Seejärel tehakse nende andmete põhjal arvutisi, kuid nii, et keegi algandmete algväärtusi ei näe, ning lõpuks kogub andmete töötleja kokku andmebaaside poolt avalikustatud tulemused ning leiab nende põhjal õige lõpptulemuse. Kui aga vaadata neist andmetest seda üht kolmandikku, siis näeb see välja nagu suvaline valge müra.”

Sisuliselt oskab Sharemind arvutada pimesi, aga saada siiski korrektseid tulemusi.

Eelduseks on vaid see, et andmed pärinevad vähemalt kolmest eri allikast ning andmete omanikud ei vaheta omavahel infot, sellisel juhul on kõigi andmeomanike jaoks tagatud turvalisus, et konfidentsiaalne info ei lähe majast välja.

Bogdanov kasutab mõistet: andmete omanik peab olema uudishimulik, kuid aus. “Oletame, et üks neist arvutusi tegevatest andmebaasidest satub siiski ründe alla ja andmed varastatakse. Vargal pole nende andmetega aga midagi peale hakata, sest see üks andmeosak ei sisalda sisuliselt midagi sellist, millest on võimalik mingit infot saada,” ütles Bogdanov.

Kes seda vajaks?

Tema sõnul vajaks sedasorti arvutuste tegemise süsteemi näiteks haiglad ja geenivaramud, kus on tegu samas vormis andmetega, mida aga seadusandlus teiste pooltega jagada ei luba. Ometi saaks need asutused omavahel koostööd tehes leida näiteks vastuseid küsimustele: kui palju sekspartnereid on keskmisel HIV-positiivsel või kui paljud 55-aastased mehed suitsetavad.

“Kindlasti huvitab Eesti IT-firmasid, millised on firmade töötajate keskmised palgad ametite järgi. Ei Skype ega Webmedia ei hakka seda teistele avaldama, aga kui kõik oma andmete põhjal lubaks arvutusi teha, siis oleks võimalik mingeid objektiivseid numbreid välja tuua,” ütles Bogdanov.

Sharemind on Tartu Ülikooli, tarkvara tehnoloogia arenduskeskuse STACC ja aktsiaseltsi Cybernetica ühistöö. Lisaks sellistele andmebaaside ülestele arvutustele võimaldab Sharemind üles ehitada ka internetipõhiseid ankeete, mille andmed juba täitmise käigus jagatakse kolme eri ossa, mis võimaldab kaitsta küsitletava privaatsust.

Sharemindi taolist arvutussüsteemi on Taanis kasutatud suhkrupeeditootjatega hinnakokkulepete sõlmimisel, kus ükski suhkrupeeditootja ei näinud teiste kasvatajate poolt soovitud hindu, kuid lõpuks pani arvuti nõudluse ja pakkumise omavahel klappima.

“Meil oli algul lihtsalt paar rida ideed, millest tänaseks on saanud paarkümmend tuhat rida programmikoodi,” ütles Bogdanov. “Siia on pandud üle kümne aasta inimtööd.”


Sellisel arvutussüsteemil võiks olla palju huvilisi, kes seda kasutada sooviks? “Esialgu on see siiski teadusprojekt, aga kuivõrd tehnoloogia on valmis saamas, siis oleme aktiivselt otsimas võimalusi selle rakendamiseks,” märkis Bodganov.

16.11.2010 11:07
Toomas

Vabandage mind rumalat aga kui on olemas kolm müüjat, kes igaüks saab teada, kes on turuliider. Ehk siis vastus küsimusele, kes müüb rohkem piima. Teades enda kogust ning turuliidri kogust, siis kui rumal ma peaksin olema, et mitte teada saada, kes on kolmandal kohal. Üldandmed müügi kohta on ju olemas statistikaameti kodulehel.
Näitlikult: Eestis müüakse 612000 tonni piima, enim müüs näiteks Rimi 300 000, Maxima esindajana ma tean, et meie müüsime 150 000. 612000- (300000 150000)=162300 tonni jääb kolmandale.
Või on kirjatüki sõnastus natuke vildakas?

Lisa kommentaar
16.11.2010 11:15

Tere,

Kolme andmeallika puhul on tõesti võimalik selliseid järeldusi teha. Samas - süsteem ei piira andmeallikate arvu ning mida rohkem neid on, seda vähem saab sarnaseid järeldusi ilma lisainformatsioonita teha.

Sharemindi abil saab teha ka keerukamaid süsteeme, kui järjestamised. Näiteks käivitada andmekaevandusalgoritme nagu ostukorvianalüüs ja klassifitseerimine. Viimaste puhul on avaldatud tulemustest algandmete tuletamine juba oluliselt keerulisem. Täpsema info saamiseks soovitan pöörduda süsteemi autorite poole.

Dan

Lisa kommentaar
16.11.2010 14:56
Mittedelikaatne Natu

Ma küsin siis teisiti (esimene kommenteerija ümbermodifitseeritud küsimus): kuidas saab salastada turvaliselt osaandmed, mille põhjal saab töödelda ja saada osatulemuse (vaata pilti selle teksti juurde)? Kui osaandmete põhjal ma võin teha järeldust ehk saada tulemust, siis nagu ühe serveri/arvuti/asutuse ründaja ma ju võin teha järelduse teiste andmete põhjal või ma eksin raudselt? Ahto Buldas õpetas nii: efektiivne jagada informatsioon osadeks ja välja mõelda algoritm ?ifreerimiseks nii, et murdmiseks see osatekst ei anna terve teksti mõistust. Näiteks, kui jagada kolmeks laus "Ma armastan sind!" Siis üks osa sõna "armastan" on vaja ?ifreerida ja ründaja kui leab võtmet, siis ja saab "armastab". Ründaja lihtsalt ei tea ja ei saa aru, kes armastab ja keda ja seega ta osateksti põhjal ei saa teha järeldust ja ta jääbki kaotajaks. Kui oletame, et ründaja saaks teha õiget järeldust osateksti põhjal, siis ta saaks ja terve teksti põhjal teha järeldust. Milles mõte jagada osadeks siis üldse? Või ma mittedelikaatselt ei saa aru protsessi nimega "osaandmete töötlemine" ja "nende põhjal järeldamine" andmetetöötleja vaade poolt?

Lisa kommentaar
16.11.2010 16:49

Tere,

Kommentaari lahtris teksti küljendada on raske, seega ei tarvitse tulemus ilusti loetav jääda. Proovin siiski teha näite.

Võtame konfidentsiaalse väärtuse x. Olgu n meil 2 astmel 32 (32-bitise täisarvu jagu väärtuseid). Genereerime kaks juhuslikku arvu r1 ja r2. Arvutame r3 = x - r1 - r2 mod n. Saadame väärtused r1, r2, r3 eraldi masinatesse. Keegi teine jagab samamoodi osadeks konfidentsiaalse väärtuse y, tekivad väärtused s1, s2 ja s3.

Nüüd on meil server M1, kellel on väärtused r1 ja s1, server M2 väärtustega r2 ja s2 ning M3 väärtustega r3 ja s3.

M1 arvutab: t1 = r1 s1 mod n, M2 arvutab t2 = r2 s2 mod n, M3 arvutab t3 = r3 s3 mod n. Nüüd, kõik serverid võivad avaldada t1, t2 ja t3 kellelegi kolmandale. Tema liidab kokku t1 t2 t2 mod n ja saab x y (mod n).

Kui sa vaatad näiteks M1 käes olevaid andmeid, siis need on juhuslikud väärtused. Sama M2 ja M3 kohta. Kui paned kõik kokku, siis alles rekonstrueeruvad x, y ja (x y).

Tegemist pole krüpteerimise vaid ühissalastusega. Seega "võtit" kui sellist ei ole. Lihtsalt andmebaasid ei tohi andmeid omavahel jagada. Kui nad on konkurendid, siis seda ka üldiselt ei juhtu. Lisaks on vaja ka kvaliteetseid pseudojuhuarve, aga neid on võrdlemisi kerge genereerida.

Meie teadustöö saavutus on see, et me oskame samal põhimõttel teha liitmist, lahutamist, korrutamist, jagamist, võrdlemist ja palju muid tehteid. Protokollid on keerukamad, kuid praktika jaoks piisavalt kiired.

Loodetavasti oli selgitusest kasu.

Ma küsin siis teisiti (esimene kommenteerija ümbermodifitseeritud küsimus): kuidas saab salastada turvaliselt osaandmed, mille põhjal saab töödelda ja saada osatulemuse (vaata pilti selle teksti juurde)? Kui osaandmete põhjal ma võin teha järeldust ehk saada tulemust, siis nagu ühe serveri/arvuti/asutuse ründaja ma ju võin teha järelduse teiste andmete põhjal või ma eksin raudselt? Ahto Buldas õpetas nii: efektiivne jagada informatsioon osadeks ja välja mõelda algoritm ?ifreerimiseks nii, et murdmiseks see osatekst ei anna terve teksti mõistust. Näiteks, kui jagada kolmeks laus "Ma armastan sind!" Siis üks osa sõna "armastan" on vaja ?ifreerida ja ründaja kui leab võtmet, siis ja saab "armastab". Ründaja lihtsalt ei tea ja ei saa aru, kes armastab ja keda ja seega ta osateksti põhjal ei saa teha järeldust ja ta jääbki kaotajaks. Kui oletame, et ründaja saaks teha õiget järeldust osateksti põhjal, siis ta saaks ja terve teksti põhjal teha järeldust. Milles mõte jagada osadeks siis üldse? Või ma mittedelikaatselt ei saa aru protsessi nimega "osaandmete töötlemine" ja "nende põhjal järeldamine" andmetetöötleja vaade poolt?

Lisa kommentaar
16.11.2010 16:51
Dan

Eelmisest kommentaarist on plussmärgid kadunud. Võib-olla kommenteerimismootori viga. Igatahes arvutab näites iga M1 t1 võrdub r1 pluss s1 mod n. Teised analoogiliselt.

Lisa kommentaar
16.11.2010 17:59
Hull Natu

Jah, lugesin läbi algebralise inerpretatsiooni. Siis vist ma valesti üldse sain aru. See vist ülesanne pirukate osade paigaldamine andmebaaside kaupa. Ehk kuidas hoida turvaliselt andmeid erinevates kohtades ja töötleja vist teeb päringut ehk pöördub mitmenda allikate juurde selleks, et avada terve pilti ja alustada töötlema. Miskipärast teksti sisu ja senini saan aru oopis teisiti... Hmmm...

Lisa kommentaar
16.11.2010 18:13

Tere,

Täpsustan veel. Töötlevad andmebaasid ise. Algoritmid on eelnevalt kokku lepitud ning kõik andmebaasid täidavad neid üheskoos, kui keegi seda neilt palub. Andmebaasid keelduvad avaldamast toorandmeid ning avaldavad vaid kokkulepitud arvutuste tulemusi. Vahetulemused jäävad samuti ühissalastatud kujule.

Parimat,

Dan

Lisa kommentaar
16.11.2010 18:34
Hull Nattu

Mul on veel üks küssa: pildil tulemuste osad ühendatakse terve pildi ehk t1 t2 t3 mod n ehk x y mod n. Ehk liitmine on konkatenatsioon ehk tavaline ühendamine? Või plussi märgi all midagi veel peidub "saladuslikult"?

Lisa kommentaar
17.11.2010 01:06
Dan

Tere,

Tegemist on tavalise liitmisega mod n. Tehnilisemalt öeldes siis liitmistehtega 32-bitiste täisarvude ringis. 32-bitised täisarvud on arvutites levinud andmetüüp, mida on kerge efektiivselt töödelda.

Dan

Lisa kommentaar
17.11.2010 09:52
Natu

Tere jah! Missugused raskused tekitavad 64 Bitti siis?

Lisa kommentaar
17.11.2010 12:42

Tere,

64-bitiste arvude puhul töötab kõik samamoodi. Lihtsalt hetkel on efektiivsuse pärast kasutusel 32-bitised arvud, sest praegustes rakendustes teevad nad töö ära. 64-bitiste arvude kasutamine suurendaks kommunikatsioonimahtu kaks korda ning kahandaks jõudlust samas suurusjärgus.

Dan

Lisa kommentaar

 

Hollandi riigiarhiiv 25.07.2014 16:05

Arvuti analüüsib biitlite muusikat (2)

Tarkvara suudab eristada erinevatel albumitel ilmunud lugusid.

San Diego California ülikool 26.05.2014 17:09

Arvuti tunneb simulandi kaugelt ära

Tarkvara eristab valu teesklejaid tõelistest haigetest 85-protsendilise täpsusega.

24.04.2014 13:37

Näotuvastustarkvara teeb inimesele ära

Uus programm leiab fotodelt sarnased näod 98,5-protsendilise täpsusega.

02.04.2014 15:29

Arvutid õpetavad teineteist

Eriline algoritm lubab arvutil kaaslasele nõu anda.

27.02.2014 14:54

Viirused ohustavad wifivõrke

Viirus levib wifivõrkudes sama kiiresti kui külmetushaigused inimeste seas.

23.01.2014 11:01

Uus lahendus Skype’is petturite avastamiseks

Skype’i kasutajate suhtlusvõrgustiku automaatne analüüs võimaldab eristada neid, kelle kavatsused ei pruugi olla kõige heasoovlikumad.

30.12.2013 18:11

Mida on võimalik teada saada mobiiltelefoniandmeid analüüsides?

Kõigil on taskus mobiiltelefon, mida kasutades jätame me endast pidevalt jälgi: iga kõne, SMS või internetiühendus jätab andmebaasi märgi.

10.12.2013 16:15

Oma silm on kuningas (1)

Pidev pildistamine takistab mälestuste tekkimist.

04.12.2013 17:44

Uudne pildiotsing raalib inimeste suhteid

Algoritm tunneb inimesi ära näotuvastust kasutamata.

18.11.2013 13:52

Kvantmälu tegi uue rekordi (2)

Toatemperatuuril suutis kvantbitt infot säilitada infot 39 minutit.

10.10.2013 12:15

Nobel: Mehed, kes viisid keemia arvutisse

Tänapäeval teevad keemikud palju tööd ära juba arvutimudelite abil, minnes alles seejärel laborisse.

23.09.2013 17:30

Veebis veedetud aeg kammitseb aju

Infotulv takistab mälu.

03.09.2013 17:35

Facebook mõjub ajule nagu seks ja hea toit

Aju lööb nurru igal korral, kui keegi su postitust meeldivaks peab.

12.08.2013 17:26

Kas usaldada internetikommentaare? (3)

Meid huvitab teiste arvamus. Uut külmkappi ostes kulutame tunde guugeldamiseks. Internet ei paku alati õigeid vastuseid, sest inimesi on kerge mõjutada, näitas Massachusettsi tehnoloogiainstituudi uurimus.

17.07.2013 07:38

Tehisintellekt jääb terve mõistusega hätta

Kõige võimekamad arvutid on arukuselt nelja-aastase lapse tasemel.

26.06.2013 14:04

Eluviisid mõjutavad mälu ja õpivõimet (6)

Veebimängud aitavad neuroteadlastel uurida une ja alkoholi mõju vaimsele võimekusele.

Paolo Villanueva/Flickr 30.04.2014 11:26

Nutitelefoni kiirendusandur reedab omaniku (1)

Mobiiltelefonid suudavad nuhkida, kuid ka nende järel luuramine muutub aina hõlpsamaks.

11.04.2014 14:42

Kas päike on aastaks 2032 maa peale toodud? (4)

Piiramatu arvutivõimsus ja termotuumaenergia kasutuselevõtt oleksid võrreldavad muutusega, mille tõi inimkonnale kaasa internet. Aga kas meil õnnestub lahti muukida universumi olemuse üks põhiküsimusi?

06.03.2014 17:46

Arvutiprogramm joonistab 17 miljoni värvitooniga VIDEO (1)

Programmeerimisvõistluse võitnud tarkvara kasutab kõiki digitehnikas kasutatavaid värvusi.

06.02.2014 19:11

Kas sotsiaalvõrgud teevad meid rumalaks? (1)

Pikaajaline sotsiaalvõrgustike kasutamine uinutab terve mõistuse.

22.01.2014 15:45

Kui kiire on kvantarvuti? (1)

Kvantarvutid võivad olla loodetust palju aeglasemad.

23.12.2013 21:24

Hiirega klõpsimine muudab käed osavaks (1)

Facebookis ja YouTube´is veedetud aeg lihvib käte ja silmade koostööd.

09.12.2013 15:18

Kas arvutil kirjutaja aju tegutseb omapäi?

Vähesed inimesed teavad klaviatuuril tähtede asukohti. Ometi ei takista see neid kiiresti kirjutamast.

26.11.2013 16:38

Arvuti proovib inimese kombel mõelda (2)

Internetist pilte otsiv arvutiprogramm vaatab ja õpib.

11.11.2013 10:06

Internet kui toimetulekumehhanism

Eesti teismeliste kalduvus internetis igavleda viitab struktureeritud tegevuste nappusele, ütleb meediauurija Lukas Blinka.

26.09.2013 18:33

Süsinikarvuti töötab nanotorukeste najal

Esimene süsinikprotsessor on sama võimas kui 40 aasta tagused ränikiibid.

20.09.2013 15:42

E-raamat aitab lugemisraskuste puhul

Vaeglugejaid aitab võimalus teksti hõredaks muuta.

28.08.2013 18:09

Tarkvara aitab videokõnes silmsidet luua

Skype´i kasutajad saavad edaspidi üksteisele kõne ajal silma vaadata.

31.07.2013 14:25

Kas internetis saab hingehädadest priiks?

E-nõustamine sobib neile depressioonihaigetele, kes on ise huvitatud oma tervise paranemisest.

05.07.2013 12:23

Kes säutsus? (1)

Twitterisse postitamise kellaajad reedavad, kas kontot kasutab inimene või hoopis internetirobot.

 
Küsi teadlaselt
Teatavasti vee ruumala paisub nii soojenemisel (aurustumisel) kui ka jäätumisel. Oletame, et on üks anum, mis on vett täis ja on purunematu. Mis hakkab juhtuma siis, kui sundida sellel veel jäätuda?
Jaak Kikas, Tartu ülikooli füüsika instituudi direktor :

See on huvitav küsimus, millele täpse kvantitatiivse vastuse andmine polegi nii lihtne. Üldiselt aga võiks vastata nii: kui paisumisvõimalus puudub,

Loe edasi!
Esita küsimus Kõik
Tartu Ülikool
Idee
Veider teadus