31.01.2008 22:10
Üks maailma suurimaid saladusi – Google’i algoritm
Internetist info
otsimine on meie igapäevaelu loomulik osa. Internetiotsingutega tegelev firma Netcraft
väidab, et internetis on praegu umbes 150 miljonit aktiivset veebilehekülge.
Kuidas leida nende hulgast meile vajalik info: see ülesanne tundub üüratu.
Otsingumootorid
kasutavad algoritme - matemaatilisi juhendeid, kuidas arvuti peab
otsinguülesandeid lahendama.
Google
otsingumootoris käib rohkem külastajaid kui ühelgi teisel maailma veebiküljel.
Aga milles seisneb selle algoritmi saladus? Keegi ei tea. Lehekülg
Howstuffworks pakub väikest sissevaadet sellele, kuidas maailma tuntuim
otsingumootor toimib.
Google algoritm
otsib lehekülgedelt otsingusõnu, kasutades selleks lehekülgede järjestamise
meetodit PageRank, mis arvestab suurt hulka erinevaid tegureid, näiteks seda,
mitu korda otsingusõna leheküljel esineb. Järjestamises kõrgema hinde saanud
leheküljed ilmuvad otsingu vastustes esimeste seas, mida madalam hinne, seda
tahapoole tulemus järjekorras paigutatakse.
Lehekülje omaniku
jaoks on ülioluline, et tema lehekülg paikneks Google’i otsingutulemustes
võimalikult kõrgel – see tagab külastatavuse ja nähtavuse. Möödunud aastal
võttis Google’i Microsofti käest ära maailma kõige külastatuma
internetilehekülje tiitli. Niisiis – olles Google’i otsingutes kõrgel kohal
annab leheküljele kõvasti lisakülastajaid.
See, kuidas
Google otsingusõnadega ringi käib, on sarnane teistele otsingumootoritega.
Automaatsed programmid, mida kutsutakse robotiteks, käivad ringi mööda
internetti, liiguvad lingilt lingile ning panevad kokku indeksid, mis
sisaldavad kindlaid otsingusõnu.
Neid indekseid
kasutatakse, kui keegi on otsingulahtrisse trükkinud otsingusõna, nende põhjal
kuvab mootor leheküljed, millel esineb otsitud sõna või väljend. Siiski
suudavad Google’i robotid pisut rohkemgi – näiteks suudavad nad vahet teha
lehekülgedel, millel tegelikult paikneb sisu ning neil, mis on üles riputatud
vaid selleks, et veebiliiklust järgmisele veebiküljele suunata.
See, kuidas
otsingusõna on leheküljel esitatud, mängib olulist rolli selles, kuidas
Google’i otsing lehekülgi leiab. Kuigi sõnu otsitakse terve lehekülje ulatuses,
on näiteks pealkirjas leiduv sõna mootori arvates parem. Kui pealkirju on
leheküljel mitmes suuruses, loeb mootor tähtsamaks suuremad pealkirjad.
Samuti on oluline,
kui tihti otsingusõna lehel esineb. Kindlate otsingusõnadega liialdamist tuleks
vältida, aga selle leheküljel paljudesse kohtadesse hajutamist soovitavad need,
kes tegelevad lehekülgede otsingumootoritele sobivaks optimeerimisega.
Google otsingualgoritmi
kõige olulisem osa on PageRank-süsteem, patenteeritud automaatprotsess, mis
määrab ära, kuidas otsingutulemused järjestatakse. Internetiotsijate enamik
pöörab tähelepanu vaid paarile-kolmele leheküljele, mis esitatakse
otsingutulemuste tipus.
Kuidas siis
Google määrab otsingutulemuste järjekorra? Kuigi paljud on püüdnud sellele
saladusele jälile jõuda, kaitseb Google algoritmi saladust kiivalt. Ühtteist on
siiski teada:
* PageRank annab
igale otsingutulemusele hinde. Mida kõrgem see on, seda kõrgemal
otsingutulemuste hulgas lehekülg kuvatakse.
* Hinde määrab
peamiselt see, kui palju teisi netilehekülgi seda külge lingib. Iga link läheb
arvesse justkui ühe häälena. Asja loogika on selles, et hea ja kvaliteetse
sisuga lehekülgi lingitakse ilmselt rohkem kui neid, mille sisu on kesine.
* Kõik hinded
pole võrdsed. Lingid kõrgelt hinnatud lehekülgedelt maksavad rohkem kui hääled
madalama hinnanguga külgedelt. Niisiis ei anna mingit efekti, kui avada
trobikond tühju lehekülgi, mis lihtsalt sisaldavad linki leheküljele, kuhu te
tegelikult soovite külastajaid meelitada.
* Mida rohkem
linke ühelt leheküljelt välja läheb, seda väiksema kaaluga on selle lehekülje
hääl. Teisisõnu – kui kõrge hindega leheküljelt läheb välja sadu linke, siis on
nende häälte hind madalam. Kui linke oleks vaid mõnele üksikule küljele, oleks
häältel suurem kaal.
* Lehekülje
hinnet mõjutavad veel näiteks kaua on lehekülg olnud üleval, samuti
domeeninimi, kuidas otsingusõnad leheküljel esinevad ning kui vanad on
leheküljelt väljuvad ja sellele sisenevad lingid. Google’i algoritm paistab
hindavat rohkem neid lehekülgi, mis on olnud juba mõnda aega tegevuses.
* On väidetud, et
Google kasutab inimesi, kes hindavad otsingutulemusi ning sorteerivad neid
seejärel, et parimad lingid esile tõsta. Google on seda eitanud, väites, et
kuigi otsingumootori palgal on terve rida inimesi, kes testivad
otsingumootorile tehtud uuendusi, ei sorteeri inimesed siiski tulemusi ega anna
lehekülgedele hindeid.
* Google
strateegia toimib libedalt. Keskendudes linkidele, mis lehele sisenevad ja
väljuvad, suudab otsingumootor tulemusi hõlpsasti korrastada. Kuigi on terve
rida trikke, mida lehekülgede hinde parandamiseks saab ette võtta, on üks
kindlamaid lahendusi pakkuda oma lehel kõrgekvaliteetset sisu, mis ajendab
teisi panema oma leheküljele teie lehekülje linki.
* Google väidab,
et kohta otsingutulemustes osta ei saa. Kõik tulemused on järjestatud
PageRank-süsteemi antud hinnete põhjal. Samas müüb Google reklaamlinke, mis
paigutatakse otsingutulemuste kohale ja kõrvale, aga need on eraldi tähistatud,
et otsija suudaks vahet teha otsingutulemuste ja raha eest ostetud
reklaamlinkide vahel.