14.11.2010 14:48

Kuidas teha arvutusi delikaatsete andmete põhjal?

Villu Päärt
Skype: villu.paart
villu.paart@ut.ee
Loe kommentaare (11)
Samal teemal (0)
Tagasi
Edasi

Foto:

Kes müüb rohkem piima? Kohvi? Juustu? Kui kolm Eesti suurimat poeketti tahaks sellele küsimusele vastust, siis tänasel päeval pole see konkurendi raamatupidamises nuhkimata võimalik.

Kuid see ei pruugi jääda kauaks nii.

Tartu Ülikooli arvutiteaduse doktorant ja aktsiaseltsi Cybernetica teadur Dan Bogdanov veab projekti Sharemind, mis võimaldab teha arvutusi nii, konfidentsiaalsed andmed seejuures ei leki.

Sharemind võimaldaks näiteks poekettide müügiandmete põhjal leida vastuseid neile küsimustele, ilma, et Selver näeks RIMI või Maxima Säästumarketi müügiandmeid.

“Kauplusest saadetud andmed jagatakse kolmeks, algoritm krüpteerib need andmed ning iga osa saadetakse ühele andmebaasile,” kirjeldas Bogdanov. “Seejärel tehakse nende andmete põhjal arvutisi, kuid nii, et keegi algandmete algväärtusi ei näe, ning lõpuks kogub andmete töötleja kokku andmebaaside poolt avalikustatud tulemused ning leiab nende põhjal õige lõpptulemuse. Kui aga vaadata neist andmetest seda üht kolmandikku, siis näeb see välja nagu suvaline valge müra.”

Sisuliselt oskab Sharemind arvutada pimesi, aga saada siiski korrektseid tulemusi.

Eelduseks on vaid see, et andmed pärinevad vähemalt kolmest eri allikast ning andmete omanikud ei vaheta omavahel infot, sellisel juhul on kõigi andmeomanike jaoks tagatud turvalisus, et konfidentsiaalne info ei lähe majast välja.

Bogdanov kasutab mõistet: andmete omanik peab olema uudishimulik, kuid aus. “Oletame, et üks neist arvutusi tegevatest andmebaasidest satub siiski ründe alla ja andmed varastatakse. Vargal pole nende andmetega aga midagi peale hakata, sest see üks andmeosak ei sisalda sisuliselt midagi sellist, millest on võimalik mingit infot saada,” ütles Bogdanov.

Kes seda vajaks?

Tema sõnul vajaks sedasorti arvutuste tegemise süsteemi näiteks haiglad ja geenivaramud, kus on tegu samas vormis andmetega, mida aga seadusandlus teiste pooltega jagada ei luba. Ometi saaks need asutused omavahel koostööd tehes leida näiteks vastuseid küsimustele: kui palju sekspartnereid on keskmisel HIV-positiivsel või kui paljud 55-aastased mehed suitsetavad.

“Kindlasti huvitab Eesti IT-firmasid, millised on firmade töötajate keskmised palgad ametite järgi. Ei Skype ega Webmedia ei hakka seda teistele avaldama, aga kui kõik oma andmete põhjal lubaks arvutusi teha, siis oleks võimalik mingeid objektiivseid numbreid välja tuua,” ütles Bogdanov.

Sharemind on Tartu Ülikooli, tarkvara tehnoloogia arenduskeskuse STACC ja aktsiaseltsi Cybernetica ühistöö. Lisaks sellistele andmebaaside ülestele arvutustele võimaldab Sharemind üles ehitada ka internetipõhiseid ankeete, mille andmed juba täitmise käigus jagatakse kolme eri ossa, mis võimaldab kaitsta küsitletava privaatsust.

Sharemindi taolist arvutussüsteemi on Taanis kasutatud suhkrupeeditootjatega hinnakokkulepete sõlmimisel, kus ükski suhkrupeeditootja ei näinud teiste kasvatajate poolt soovitud hindu, kuid lõpuks pani arvuti nõudluse ja pakkumise omavahel klappima.

“Meil oli algul lihtsalt paar rida ideed, millest tänaseks on saanud paarkümmend tuhat rida programmikoodi,” ütles Bogdanov. “Siia on pandud üle kümne aasta inimtööd.”


Sellisel arvutussüsteemil võiks olla palju huvilisi, kes seda kasutada sooviks? “Esialgu on see siiski teadusprojekt, aga kuivõrd tehnoloogia on valmis saamas, siis oleme aktiivselt otsimas võimalusi selle rakendamiseks,” märkis Bodganov.

16.11.2010 11:07
Toomas

Vabandage mind rumalat aga kui on olemas kolm müüjat, kes igaüks saab teada, kes on turuliider. Ehk siis vastus küsimusele, kes müüb rohkem piima. Teades enda kogust ning turuliidri kogust, siis kui rumal ma peaksin olema, et mitte teada saada, kes on kolmandal kohal. Üldandmed müügi kohta on ju olemas statistikaameti kodulehel.
Näitlikult: Eestis müüakse 612000 tonni piima, enim müüs näiteks Rimi 300 000, Maxima esindajana ma tean, et meie müüsime 150 000. 612000- (300000 150000)=162300 tonni jääb kolmandale.
Või on kirjatüki sõnastus natuke vildakas?

Lisa kommentaar
16.11.2010 11:15

Tere,

Kolme andmeallika puhul on tõesti võimalik selliseid järeldusi teha. Samas - süsteem ei piira andmeallikate arvu ning mida rohkem neid on, seda vähem saab sarnaseid järeldusi ilma lisainformatsioonita teha.

Sharemindi abil saab teha ka keerukamaid süsteeme, kui järjestamised. Näiteks käivitada andmekaevandusalgoritme nagu ostukorvianalüüs ja klassifitseerimine. Viimaste puhul on avaldatud tulemustest algandmete tuletamine juba oluliselt keerulisem. Täpsema info saamiseks soovitan pöörduda süsteemi autorite poole.

Dan

Lisa kommentaar
16.11.2010 14:56
Mittedelikaatne Natu

Ma küsin siis teisiti (esimene kommenteerija ümbermodifitseeritud küsimus): kuidas saab salastada turvaliselt osaandmed, mille põhjal saab töödelda ja saada osatulemuse (vaata pilti selle teksti juurde)? Kui osaandmete põhjal ma võin teha järeldust ehk saada tulemust, siis nagu ühe serveri/arvuti/asutuse ründaja ma ju võin teha järelduse teiste andmete põhjal või ma eksin raudselt? Ahto Buldas õpetas nii: efektiivne jagada informatsioon osadeks ja välja mõelda algoritm ?ifreerimiseks nii, et murdmiseks see osatekst ei anna terve teksti mõistust. Näiteks, kui jagada kolmeks laus "Ma armastan sind!" Siis üks osa sõna "armastan" on vaja ?ifreerida ja ründaja kui leab võtmet, siis ja saab "armastab". Ründaja lihtsalt ei tea ja ei saa aru, kes armastab ja keda ja seega ta osateksti põhjal ei saa teha järeldust ja ta jääbki kaotajaks. Kui oletame, et ründaja saaks teha õiget järeldust osateksti põhjal, siis ta saaks ja terve teksti põhjal teha järeldust. Milles mõte jagada osadeks siis üldse? Või ma mittedelikaatselt ei saa aru protsessi nimega "osaandmete töötlemine" ja "nende põhjal järeldamine" andmetetöötleja vaade poolt?

Lisa kommentaar
16.11.2010 16:49

Tere,

Kommentaari lahtris teksti küljendada on raske, seega ei tarvitse tulemus ilusti loetav jääda. Proovin siiski teha näite.

Võtame konfidentsiaalse väärtuse x. Olgu n meil 2 astmel 32 (32-bitise täisarvu jagu väärtuseid). Genereerime kaks juhuslikku arvu r1 ja r2. Arvutame r3 = x - r1 - r2 mod n. Saadame väärtused r1, r2, r3 eraldi masinatesse. Keegi teine jagab samamoodi osadeks konfidentsiaalse väärtuse y, tekivad väärtused s1, s2 ja s3.

Nüüd on meil server M1, kellel on väärtused r1 ja s1, server M2 väärtustega r2 ja s2 ning M3 väärtustega r3 ja s3.

M1 arvutab: t1 = r1 s1 mod n, M2 arvutab t2 = r2 s2 mod n, M3 arvutab t3 = r3 s3 mod n. Nüüd, kõik serverid võivad avaldada t1, t2 ja t3 kellelegi kolmandale. Tema liidab kokku t1 t2 t2 mod n ja saab x y (mod n).

Kui sa vaatad näiteks M1 käes olevaid andmeid, siis need on juhuslikud väärtused. Sama M2 ja M3 kohta. Kui paned kõik kokku, siis alles rekonstrueeruvad x, y ja (x y).

Tegemist pole krüpteerimise vaid ühissalastusega. Seega "võtit" kui sellist ei ole. Lihtsalt andmebaasid ei tohi andmeid omavahel jagada. Kui nad on konkurendid, siis seda ka üldiselt ei juhtu. Lisaks on vaja ka kvaliteetseid pseudojuhuarve, aga neid on võrdlemisi kerge genereerida.

Meie teadustöö saavutus on see, et me oskame samal põhimõttel teha liitmist, lahutamist, korrutamist, jagamist, võrdlemist ja palju muid tehteid. Protokollid on keerukamad, kuid praktika jaoks piisavalt kiired.

Loodetavasti oli selgitusest kasu.

Ma küsin siis teisiti (esimene kommenteerija ümbermodifitseeritud küsimus): kuidas saab salastada turvaliselt osaandmed, mille põhjal saab töödelda ja saada osatulemuse (vaata pilti selle teksti juurde)? Kui osaandmete põhjal ma võin teha järeldust ehk saada tulemust, siis nagu ühe serveri/arvuti/asutuse ründaja ma ju võin teha järelduse teiste andmete põhjal või ma eksin raudselt? Ahto Buldas õpetas nii: efektiivne jagada informatsioon osadeks ja välja mõelda algoritm ?ifreerimiseks nii, et murdmiseks see osatekst ei anna terve teksti mõistust. Näiteks, kui jagada kolmeks laus "Ma armastan sind!" Siis üks osa sõna "armastan" on vaja ?ifreerida ja ründaja kui leab võtmet, siis ja saab "armastab". Ründaja lihtsalt ei tea ja ei saa aru, kes armastab ja keda ja seega ta osateksti põhjal ei saa teha järeldust ja ta jääbki kaotajaks. Kui oletame, et ründaja saaks teha õiget järeldust osateksti põhjal, siis ta saaks ja terve teksti põhjal teha järeldust. Milles mõte jagada osadeks siis üldse? Või ma mittedelikaatselt ei saa aru protsessi nimega "osaandmete töötlemine" ja "nende põhjal järeldamine" andmetetöötleja vaade poolt?

Lisa kommentaar
16.11.2010 16:51
Dan

Eelmisest kommentaarist on plussmärgid kadunud. Võib-olla kommenteerimismootori viga. Igatahes arvutab näites iga M1 t1 võrdub r1 pluss s1 mod n. Teised analoogiliselt.

Lisa kommentaar
16.11.2010 17:59
Hull Natu

Jah, lugesin läbi algebralise inerpretatsiooni. Siis vist ma valesti üldse sain aru. See vist ülesanne pirukate osade paigaldamine andmebaaside kaupa. Ehk kuidas hoida turvaliselt andmeid erinevates kohtades ja töötleja vist teeb päringut ehk pöördub mitmenda allikate juurde selleks, et avada terve pilti ja alustada töötlema. Miskipärast teksti sisu ja senini saan aru oopis teisiti... Hmmm...

Lisa kommentaar
16.11.2010 18:13

Tere,

Täpsustan veel. Töötlevad andmebaasid ise. Algoritmid on eelnevalt kokku lepitud ning kõik andmebaasid täidavad neid üheskoos, kui keegi seda neilt palub. Andmebaasid keelduvad avaldamast toorandmeid ning avaldavad vaid kokkulepitud arvutuste tulemusi. Vahetulemused jäävad samuti ühissalastatud kujule.

Parimat,

Dan

Lisa kommentaar
16.11.2010 18:34
Hull Nattu

Mul on veel üks küssa: pildil tulemuste osad ühendatakse terve pildi ehk t1 t2 t3 mod n ehk x y mod n. Ehk liitmine on konkatenatsioon ehk tavaline ühendamine? Või plussi märgi all midagi veel peidub "saladuslikult"?

Lisa kommentaar
17.11.2010 01:06
Dan

Tere,

Tegemist on tavalise liitmisega mod n. Tehnilisemalt öeldes siis liitmistehtega 32-bitiste täisarvude ringis. 32-bitised täisarvud on arvutites levinud andmetüüp, mida on kerge efektiivselt töödelda.

Dan

Lisa kommentaar
17.11.2010 09:52
Natu

Tere jah! Missugused raskused tekitavad 64 Bitti siis?

Lisa kommentaar
17.11.2010 12:42

Tere,

64-bitiste arvude puhul töötab kõik samamoodi. Lihtsalt hetkel on efektiivsuse pärast kasutusel 32-bitised arvud, sest praegustes rakendustes teevad nad töö ära. 64-bitiste arvude kasutamine suurendaks kommunikatsioonimahtu kaks korda ning kahandaks jõudlust samas suurusjärgus.

Dan

Lisa kommentaar

 

Quantum Day/CC 21.05.2012 11:14

Tulevik: mitmetuumalised kvantarvutid (2)

Me oleme harjunud, et igal aastal tuuakse turule uued ja võimsamad arvutid. Kuid mis juhtuks kui ühel päeval väidaksid arvutitootjad, et enam võimsamaid arvuteid pole võimalik luua?

Musion 17.04.2012 18:39

Video: Tehnoloogia toob surnud staarid taas lavalaudadele

Elvis Presley maailmaturnee? Georg Ots taas Estonia laval laulmas muusikalis “Mees La Manchast”? See võib olla juba lähiaastail reaalsus.

02.04.2012 11:58

Nutimaja loeb omaniku soove (2)

Tulevikus ei pea enam muretsema, et koju tulles on tuba külm, uks jäi lukustamata või triikraud ununes sisse. Nutimajad saavad nende muredega ise toime.

26.03.2012 09:21

Mis on privaatsuse hind?

Euroopa teadlased uurisid internetis jagatava personaalse informatsiooni väärtust rahas.

05.03.2012 09:29

Miks on vaja raadiolaineid väänata? (4)

Raadiolainetele anti spiraalmakaroni kuju.

22.02.2012 17:50

Liikluse tulevik: planeeritud ristmikuületused muudavad liikluse sujuvamaks

Ristmiku ületamise saab reserveerida arvutiprogrammi abil.

17.02.2012 10:05

Video: Uus fotorakendus puhastab pildi (1)

Rootslaste tehtud nutitelefoni rakendus võimaldab fotolt eemaldada möödakäijad või muidu soovimatud objektid.

13.02.2012 10:27

Nutitelefon diagnoosib depressiooni

Northwesterni ülikooli teadlased lõid mobiilirakenduse Mobilyze, mis inimese tegevuse jälgimise põhjal annab hinnangu tema meeleolu kohta.

07.02.2012 12:18

Järgmine samm tarbijakäitumise uurimises: turvavideod (2)

Turvasalvestisi analüüsiv tarkvara võimaldab kaupmeestel kaardistada klientide ostukäitumist kaupluses.

02.02.2012 13:08

Nutitelefon aitab talvise linnumaja külalisi ära tunda

Talvel aia linnumajas kõhtu täitmas käivate linnuliikide määramisel saab nüüd appi võtta äsjavalminud eestikeelse nutitelefonirakenduse.

31.01.2012 08:58

Uus kiip tõotab kiiremat elektroonikat

Loodusliku mineraali molübdeniidi kasutamine mikrokiipide valmistamisel tõotab väiksemaid ja kiiremaid elektroonikaseadmeid.

26.01.2012 16:59

Juhtmevaba seade juhib aju

Ameerika idufirma loodud seade võimaldab juhtmevabalt manipuleerida laboriloomade ajurakkudega.

24.01.2012 11:38

Video: YouTube täitub meeletus tempos

YouTube’i laetakse iga sekundiga terve tund uut materjali, minutis lisandub 60 tundi videot.

17.01.2012 15:57

Kes käis? Nutitelefon teab

Lumises metsas loomajälgi tuvastades on nüüd võimalik abi saada oma nutitelefonist.

13.01.2012 09:12

Kas arvutid vajavad oma võrgulehekülgi?

Eraldi võrguleheküljed inimeste ja arvutite jaoks muudaks andmete kasutamise ja jagamise internetis lihtsamaks.

11.01.2012 12:38

Google muutub kasutajakesksemaks (1)

Google'i internetiotsing hõlmab nüüdsest ka Google+ postitusi ja Picasa pildialbumeid, mistõttu sisaldavad otsingutulemused rohkem personaalset informatsiooni.

12.04.2012 12:06

Novaatoril valmis rakendus Androidi nutitelefonidele

Nüüdsest on Androidi platvormil töötavate nutitelefonide omanikel Novaatori teadusuudiste lugemine oluliselt hõlpsam tänu spetsiaalsele rakendusele.

29.03.2012 10:11

Unustage PowerPoint! Esitlusi tehakse tänapäeval nii

Kuidas teha tõeliselt paeluvat ettekannet?

20.03.2012 08:43

Tulevikutransistor on valmistatud verest ja limast (1)

Kiipide ja transistorite valmistamiseks kasutatava räni võivad tulevikus asendada orgaanilised molekulid.

29.02.2012 13:06

Turvaline arvutipilv kaitseb end ise

Ameeriklased loovad arvutipilve, mis suudaks end ise küberründe eest kaitsta.

21.02.2012 11:53

Kvantarvuti hakkab ilmet võtma

Tänaste kõige turvalisemate koodide lahtimurdmiseks oleks vaja poolt Euroopat katvat arvutifarmi, millel kuluks selleks kümmekond aastat.

16.02.2012 12:14

Milline veebileht köidab pilku? (1)

Esmamulje tekib sekundi murdosa jooksul, näitas Missouri tehnikaülikooli uurimus.

09.02.2012 16:18

Kuumutamine muudab kõvaketta ülikiireks (2)

Andmete salvestamiseks kuumutamist kasutav uus meetod võimaldab muuta kõvakettad praegusest sadu kordi kiiremaks.

02.02.2012 15:09

Kuidas mõtteid pealt kuulata? (2)

Teadlased demonstreerisid meetodit, mis võimaldab mõtteid lugeda.

31.01.2012 09:14

Multimeediaajastu pärsib teismelise sotsiaalset arengut (1)

Pidevalt erinevaid digitaalseid seadmeid samaaegselt kasutavad teismelised tüdrukud on sotsiaalses ja emotsionaalses arengus vähem edukad, näitas värske uuring.

27.01.2012 12:50

Uus kinokeskkond mängib kõigi meeltega (1)

Digirevolutsioon planetaariumides viib filmivaatamise täiesti uuele tasemele.

24.01.2012 12:05

Video: Kuidas töötab ajavari?

Nähtamatuks muutev ajavari toimib tänu laserimpulssidele.

18.01.2012 09:35

Google ennustab gripilaineid

Gripiga seotud otsingusõnu analüüsiv Google’i töövahend suudab haiglaid hoiatada gripipatsientide tulva eest tõhusamalt kui tavapärane haigusstatistika, näitas värske uuring.

17.01.2012 12:01

Randmepael ühendab inimese nutimajaga

Teadlased arendavad anduritega varustatud märkamatut randmepaela, mis aitab luua ruumisviibijale sobilikud tingimused.

11.01.2012 14:46

Video: Nanotöötlus muudab nutitelefoni veekindlaks

Uus toode katab elektroonikaseadmed nii seest kui väljast juuksekarvast õhema läbipaistva vett tõrjuva kihiga.