V roce 1995 se na Stanfordu potkali Larry Page a Sergey Brin. Bylo jim přibližně 21 let. Spolu se snažili vytvořit systém, který by zefektivnil vyhledávání na internetu. V té době kraloval vyhledávač altavista, který však nedával nijak valné výsledky. Za jeho funkčností stála skupina lidí, která se snažila procházet web a ohodnocovat jednotlivé stránky dle důležitosti podle svého nejlepšího úsudku. Při vyhledávání se pak nalezla oindexovaná slova a výsledky se zobrazili podle zadané důležitosti stránek. Avšak internet se velmi rychle rozrůstal a navíc se obsah stránek často měnil. Bylo tedy potřeba systém zautomatizovat.
Vyhledávač altavista.
Jak hodnotit stránky?
Nebylo ani takovým problémem vymyslet automatický systém, který by procházel celý web, i když i zde si museli dát tvůrci pozor na možnost zacyklení. Větším problémem bylo však vymyslet objektivní hodnotící kritérium, které by udávalo přínosnost a důležitost stránek. Pokud bychom hodnotili například velikost stránky nebo počet jejích podstránek, mohli bychom se setkat s podváděním. Není totiž problém vytvořit větší či komplexnější stránku s cílem velké důležitosti při vyhledávání.
Počítání odkazů
Internet naštěstí nejsou jenom jednotlivé webové stránky, ale především provázanost pomocí odkazů. A právě toto dalo zrození prvotní myšlenky. Počítat počet odkazů. Nemá samozřejmě smysl počítat odkazy, které vedou ven ze stránky, což může vlastník ovlivnit. Je tedy daleko srozumitelnější počítat ty odkazy, které ukazují na danou stránku. Čím více různých zdrojů na ni odkazuje, tím je pravděpodobnější, že bude lepší a důležitější.
Avšak prvotní nápad měl pořád několik chyb. Pokud máte webovou stránku a chcete, aby byla upřednostňovaná, jednoduše koupíte více malých stránek (domén) a na nich vytvoříte plno odkazů ukazující na vaši hlavní stránku.
Google pravidelně obměňuje své logo, zde můžete vidět aktuální zimní motiv.
Muselo se tedy zabránit takovému podvádění a tak se přešlo z obyčejného sčítání počtu odkazů na sčítání vah odkazů. Pokud na vaši stránku odkazuje jedna důležitá stránka, je to pro vás lepší, než kdyby na vás ukazovali dvě neznámé (nedůležité) stránky. Tím se zabrání podvodníkům, aby si vytvořili plno malých (nevýznamných) stránek a zvyšovali si tak svoje hodnocení hlavní stránky.
Avšak i tento nápad má své problémy. A to už i pro velmi malou síť. Řešení je však hned na světě. Vezmeme každou stránku a počet odkazů, které obsahuje, a do tohoto počtu rozdělíme její důležitost. Pokud tedy stránka s důležitostí například 20 (vysoká) ukazuje na deset stránek, mezi nimiž je i vaše, připočte se k důležitosti vaší stránky hodnota 2. Pokud méně důležitá stránka s hodnocením 5 ukazuje pouze na vaši stránku, připočte se k vašemu hodnocení 5 (odkazující stránce se samozřejmě nic neodečítá).
Když si sestavíme rovnice pro výpočet důležitosti všech stránek, dostaneme se k obrovské soustavě rovnic, kterou je velmi obtížné řešit (zda vůbec) a není známo, jestli má pouze jedno řešení.
Procházení webu
Jak tedy vyřešit tuto zapeklitou situaci? Řešení se nabízí díky dostupnosti celé struktury internetu. Nemusíme totiž počítat odkazy, které míří na jednotlivé stránky. Můžeme naprogramovat robota, který bude náhodně procházet celý internet a když narazí na danou stránku, zvýší jí hodnocení. Robotem se samozřejmě nemyslí kus hardwaru, který by seděl za počítačem a klikal myší na jednotlivé odkazy. Máme tím na mysli program, který se podívá na celou stránku, vybere všechny odkazy na ní a na jeden z nich náhodně přejde.
Robot, který po webu brouzdat určitě neumí.
Příkladem funkčnosti může být situace, kdy máme hlavní stránku, na níž odkazuje dvacet malých stránek, na které neodkazuje téměř nikdo. Robot se tedy málokdy dostane na některou z malých stránek a proto i málokdy na naši hlavní stránku. Na druhou stranu mějme hlavní stránku. Na tuto jedinou odkazuje důležitá stránka (odkazovaná velmi často z jiných webů). Robot se velmi často dostane na onu důležitou stránku a tím pádem i na naši stránku.
Po delší analýze tohoto způsobu se ukáže, že jsme přibližně vyřešili soustavu rovnic z konce minulé části (kterou lze řešit pomocí vlastních čísel a vlastních vektorů).
PageRank
Co je tedy vlastně PageRank? Je to hodnocení každého webu vypočteného z počtu návštěv robota. Čím vyšší PageRank máte, tím je vaše stránka pro google důležitější a tím pádem bude při zobrazení výsledků výš než stránka s menším hodnocením.
Tím, že robot prochází web velmi často, indexuje google i nové stránky či ty staré se změněným obsahem.
Název PageRank neznamená hodnocení stránek (překlad z angličtiny), ale Pageovo hodnocení (podle zakladatele).
Závěr
Jednoduchý nápad vyšvihnul školní projekt do výšin a jeho tvůrcům vydělal nemalé peníze. Z Googlu se stala obrovská společnost, která už není pouhým vyhledávačem, ale zabývá se nejrůznějšími projekty od webmailového serveru, přes vývoj internetového prohlížeče až po vývoj vlastního operačního systému. Velkou výhodou je pak zaměřenost na freeware a zdarma využitelné projekty.