31.01.2008 22:10

Üks maailma suurimaid saladusi – Google’i algoritm

Villu Päärt
Skype: villu.paart
villu.paart@ut.ee
Loe kommentaare (0)
Samal teemal (1)

Internetist info otsimine on meie igapäevaelu loomulik osa. Internetiotsingutega tegelev firma Netcraft väidab, et internetis on praegu umbes 150 miljonit aktiivset veebilehekülge. Kuidas leida nende hulgast meile vajalik info: see ülesanne tundub üüratu.

Otsingumootorid kasutavad algoritme - matemaatilisi juhendeid, kuidas arvuti peab otsinguülesandeid lahendama.

Google otsingumootoris käib rohkem külastajaid kui ühelgi teisel maailma veebiküljel. Aga milles seisneb selle algoritmi saladus? Keegi ei tea. Lehekülg Howstuffworks pakub väikest sissevaadet sellele, kuidas maailma tuntuim otsingumootor toimib.

Google algoritm otsib lehekülgedelt otsingusõnu, kasutades selleks lehekülgede järjestamise meetodit PageRank, mis arvestab suurt hulka erinevaid tegureid, näiteks seda, mitu korda otsingusõna leheküljel esineb. Järjestamises kõrgema hinde saanud leheküljed ilmuvad otsingu vastustes esimeste seas, mida madalam hinne, seda tahapoole tulemus järjekorras paigutatakse.

Lehekülje omaniku jaoks on ülioluline, et tema lehekülg paikneks Google’i otsingutulemustes võimalikult kõrgel – see tagab külastatavuse ja nähtavuse. Möödunud aastal võttis Google’i Microsofti käest ära maailma kõige külastatuma internetilehekülje tiitli. Niisiis – olles Google’i otsingutes kõrgel kohal annab leheküljele kõvasti lisakülastajaid.

See, kuidas Google otsingusõnadega ringi käib, on sarnane teistele otsingumootoritega. Automaatsed programmid, mida kutsutakse robotiteks, käivad ringi mööda internetti, liiguvad lingilt lingile ning panevad kokku indeksid, mis sisaldavad kindlaid otsingusõnu.

Neid indekseid kasutatakse, kui keegi on otsingulahtrisse trükkinud otsingusõna, nende põhjal kuvab mootor leheküljed, millel esineb otsitud sõna või väljend. Siiski suudavad Google’i robotid pisut rohkemgi – näiteks suudavad nad vahet teha lehekülgedel, millel tegelikult paikneb sisu ning neil, mis on üles riputatud vaid selleks, et veebiliiklust järgmisele veebiküljele suunata.

See, kuidas otsingusõna on leheküljel esitatud, mängib olulist rolli selles, kuidas Google’i otsing lehekülgi leiab. Kuigi sõnu otsitakse terve lehekülje ulatuses, on näiteks pealkirjas leiduv sõna mootori arvates parem. Kui pealkirju on leheküljel mitmes suuruses, loeb mootor tähtsamaks suuremad pealkirjad.

Samuti on oluline, kui tihti otsingusõna lehel esineb. Kindlate otsingusõnadega liialdamist tuleks vältida, aga selle leheküljel paljudesse kohtadesse hajutamist soovitavad need, kes tegelevad lehekülgede otsingumootoritele sobivaks optimeerimisega.

Google otsingualgoritmi kõige olulisem osa on PageRank-süsteem, patenteeritud automaatprotsess, mis määrab ära, kuidas otsingutulemused järjestatakse. Internetiotsijate enamik pöörab tähelepanu vaid paarile-kolmele leheküljele, mis esitatakse otsingutulemuste tipus.

Kuidas siis Google määrab otsingutulemuste järjekorra? Kuigi paljud on püüdnud sellele saladusele jälile jõuda, kaitseb Google algoritmi saladust kiivalt. Ühtteist on siiski teada:

* PageRank annab igale otsingutulemusele hinde. Mida kõrgem see on, seda kõrgemal otsingutulemuste hulgas lehekülg kuvatakse.

* Hinde määrab peamiselt see, kui palju teisi netilehekülgi seda külge lingib. Iga link läheb arvesse justkui ühe häälena. Asja loogika on selles, et hea ja kvaliteetse sisuga lehekülgi lingitakse ilmselt rohkem kui neid, mille sisu on kesine.

* Kõik hinded pole võrdsed. Lingid kõrgelt hinnatud lehekülgedelt maksavad rohkem kui hääled madalama hinnanguga külgedelt. Niisiis ei anna mingit efekti, kui avada trobikond tühju lehekülgi, mis lihtsalt sisaldavad linki leheküljele, kuhu te tegelikult soovite külastajaid meelitada.

* Mida rohkem linke ühelt leheküljelt välja läheb, seda väiksema kaaluga on selle lehekülje hääl. Teisisõnu – kui kõrge hindega leheküljelt läheb välja sadu linke, siis on nende häälte hind madalam. Kui linke oleks vaid mõnele üksikule küljele, oleks häältel suurem kaal.

* Lehekülje hinnet mõjutavad veel näiteks kaua on lehekülg olnud üleval, samuti domeeninimi, kuidas otsingusõnad leheküljel esinevad ning kui vanad on leheküljelt väljuvad ja sellele sisenevad lingid. Google’i algoritm paistab hindavat rohkem neid lehekülgi, mis on olnud juba mõnda aega tegevuses.

* On väidetud, et Google kasutab inimesi, kes hindavad otsingutulemusi ning sorteerivad neid seejärel, et parimad lingid esile tõsta. Google on seda eitanud, väites, et kuigi otsingumootori palgal on terve rida inimesi, kes testivad otsingumootorile tehtud uuendusi, ei sorteeri inimesed siiski tulemusi ega anna lehekülgedele hindeid.

* Google strateegia toimib libedalt. Keskendudes linkidele, mis lehele sisenevad ja väljuvad, suudab otsingumootor tulemusi hõlpsasti korrastada. Kuigi on terve rida trikke, mida lehekülgede hinde parandamiseks saab ette võtta, on üks kindlamaid lahendusi pakkuda oma lehel kõrgekvaliteetset sisu, mis ajendab teisi panema oma leheküljele teie lehekülje linki.

* Google väidab, et kohta otsingutulemustes osta ei saa. Kõik tulemused on järjestatud PageRank-süsteemi antud hinnete põhjal. Samas müüb Google reklaamlinke, mis paigutatakse otsingutulemuste kohale ja kõrvale, aga need on eraldi tähistatud, et otsija suudaks vahet teha otsingutulemuste ja raha eest ostetud reklaamlinkide vahel.

 

16.07.2010 10:55

Euroopa möödus rämpskirjade levitamises Aasiast

Käesoleva aasta teises kvartalis sai Euroopast suurim spämmilevitaja. Euroopa riikidest oli peamiseks rämpsposti allikaks Suurbritannia.

12.07.2010 14:11

Loodi nähtamatu arvutihiir VIDEO (1)

Sabata ehk juhtmeta hiir pole enam ammu uudiseks. Nüüdseks on aga välja töötatud ka hiireta hiire prototüüp.

11.06.2010 15:55

Kuidas arvuti uudiste põhjal kauplema õpetada (1)

Tuhandeid algoritme on loodud, et elimineerida inimene koos oma inimlike vigadega aktsiate kauplemise protsessist.

28.05.2010 15:25

Enamik arvutikasutajatest guugeldab ennast (1)

57 protsenti täiskasvanud ameeriklastest hoiab oma reputatsioonil internetis silma peal. 2006. aastal oli vastav näitaja 47 protsenti.

26.05.2010 13:42

Mobiiltelefon õpib haistma mürke

USA sisejulgeolekuministeerium rahastab kiibi väljatöötamist, mis võimaldaks mobiiltelefoni abil tuvastada mürgiste gaaside olemasolu.

26.03.2010 15:10

Interneti turvalisuse tagamine tõi matemaatikule suure auhinna (2)

Matemaatikute Nobeli auhinnaks peetav Abeli auhind anti endisele Texase ülikooli teadlasele John Tate’ile töö eest täisarvude omadusi uuriva arvuteooria arendamisel, mis on oluliselt aidanud kaasa interneti turvalisemaks muutmisele.

10.02.2010 09:04

Eesti ettevõte kuulub maailma ohtlikumate spämmerite hulka

Veel mõne aasta eest Eesti edukaimaks IT-firmaks nimetatud Rove Digital troonib maailma kümne ohtlikuma rämpsposti levitaja nimekirjas, mida koostab spämmi levitajate vastane organisatsioon The Spamhaus Project.

13.01.2010 13:21

Visioonid aastaks 2020: Internetiotsingud (1)

Internetiotsingud on kiiresti arenenud ning kümne aasta pärast on inimkonna käsutuses kindlasti praegustest palju avaramad võimalused.

16.12.2009 15:55

Arvutid võtavad ajakirjanike töö üle (1)

Teadlased arendavad arvutiprogramme, mis suudaksid statistilisi andmeid kasutades või internetis otsinguid sooritades ilma inimese abita uudiseid kokku panna.

27.11.2009 17:46

Intel tahab inimeste aju kiibiga varustada (6)

Intel on asunud välja töötama mikroprotsessorit, mille saaks paigutada inimese ajusse, et arvutit saaks edaspidi kasutada ilma hiire ja klaviatuurita.

20.10.2009 12:08

Menukast materjalist leiti veidralt käituvad osakesed (1)

Viimasel kümnendil on grafeen olnud materjaliteadlaste huviobjekt number üks. Õhus on lootus, et ühel heal päeval asendab grafeen praegu protsessorites kasutatava räni.

13.10.2009 17:56

Arvutid ei saa lõputult kiiremaks muutuda (2)

Kahe aasta eest ostetud arvuti tundub juba vanana. Uued müügil olevad mudelid on märgatavalt võimsamad ning nii on see olnud juba aastakümneid.

27.09.2009 13:08

Materjal, mis võib tuua paberõhukesed ekraanid

Pilt meenutab last, kes vanemate kirjutuslaua taga kleeplindiga mängib. Tegelikkuses sünnib nii materjal, mida maailma materjaliteadlased peavad hetkel kõige paljulubavamaks.

19.06.2009 18:19

Keda usaldada lendamisel: piloote või arvuteid?

Hiljutine Air France’i lennuki katastroof Atlandi ookeani kohal tõstatab küsimuse, kui suures mahus võib lennukite juhtimise usaldada arvutite hoolde.

06.04.2009 10:34

Jaapani lapsrobot õpib nagu inimlaps

Inimlapse sarnase kehaga robot CB2 arendab inimestega suheldes aeglaselt oma sotsiaalseid oskusi nagu pisikene laps, kes suhtleb oma emaga.

26.02.2009 20:54

2050. aasta jalgpalli maailmameistrid – robotid

Suluseisu põhimõtet pole kuigi lihtne seletada ühelegi võhikule. Kuidas seda ning ka teisi jalgpalli reegleid, liikumisi ja strateegiaid õpetada aga elutule jalgpallirobotile?

Scanpix 22.06.2010 11:22

Microsofti Kinect pole mitte ainult mänguasi

Eelmisel nädalal esitles Microsoft Los Angeleses ˛estitundlikul tehnoloogial põhinevat lahendust Kinect, mis võimaldab Xbox 360 mängukonsooli juhtida pelgalt liigutuste abil.

01.06.2010 12:05

Mobiiltelefone saab tulevikus juhtida silmadega

Üheks võimaluseks mobiiltelefoni kasutada on arendada välja töökindel süsteem kasutaja silmade liikumise jälgimiseks.

26.05.2010 14:15

Eksperiment: arvutiviirusega nakatunud inimene

Briti teadlane väidab end olevat esimese inimese maailmas, kes on nakatunud arvutiviirusega.

05.04.2010 17:00

Eesti üleujutusi saab vaadata satelliitkaardilt

Kevadisi üleujutusi Emajõel, Soomaal, Kasari ja Keila jõel on alates tänasest võimalik internetist vaadata satelliidipildi vahendusel

12.02.2010 14:38

Varastatud pangakaarti saab kasutada ka PIN-koodi teadmata (3)

Briti teadlaste sõnul ei ole PIN-koodiga pangakaardid turvalised, sest kurjategijad on leidnud meetodi, kuidas kasutada varastatud pangakaarte PIN-koodi teadmata.

28.01.2010 12:40

Visioonid aastaks 2020: laserid

Poole sajandi eest ei suutnud esimeste laserite loojad kindlasti ettegi kujutada, kuivõrd laialdaselt nende leiutist tulevikus kasutama hakatakse.

06.01.2010 11:46

Skype pakub uutes telerites kõrglahutusega videokõnesid

Skype’i videkõnede tehnoloogia võetakse kasutusele peagi turule jõudvates internetiühendusega kõrglahutusega telerites.

30.11.2009 12:29

Inimese mõtetest tehti video (5)

California ülikooli teadlasel Jack Gallantil õnnestus katsealuste ajust magnetresonantsuuringuga kopeerida pilt videofilmist, mida katsealused vaatasid.

20.11.2009 14:51

Google’i operatsioonisüsteem jõuab arvutikasutajateni aasta pärast (4)

Google on otsustanud anda hoobi päris Microsofti põhiäri pihta, plaanides uut operatsioonisüsteemi, mis jõuab tarbijateni kõige varem aasta pärast.

16.10.2009 17:04

Kas AdBlocki kasutaja on varas? (2)

Mozilla Firefoxi populaarne lisa AdBlock on reklaamist elatuvate veebilehtede omanikud väga kurjaks ajanud.

06.10.2009 18:06

Füüsika-Nobel anti infoajastusse viinud avastuste eest

Interneti ja digifotode olemasoluta ei kujutaks tänapäeva inimene enam oma elu ette. See igapäevane elu põhineb kolme teadlase tööl, kelle üle 40 aasta eest tehtud avastused pärjati täna Nobeli füüsikapreemiaga.

16.09.2009 11:54

Facebook jõudis 300 miljoni kasutajani

Facebook teatas, et neil on nüüd 300 miljonit kasutajat ning lisaks on populaarse ja suuri investeeringuid nõudnud suhtlusportaali jooksvad tulud esmakordselt ületamas jooksvaid kulusid.

05.06.2009 11:10

Ihaldusväärne mänguasi, mis oskab ka super hästi arvutada

Võid kihutada nagu piloot vormel 1 roolis või unustada end tundideks kolmemõõtmelise ussimängu maailma. Paljud moodsa mängukonsooli PlayStation 3 omanikud nii teevadki.

03.04.2009 14:51

Robotid võtavad teadlaste töö endale

Kaks teadlasterühma valmistasid samaaegselt intelligentsed masinad, mis suudavad iseseisvalt andmeid analüüsides mõelda välja teooriaid ja omandada uusi teadmisi. See on oluline edasiminek tehisintelligentsi loomisel.