Il PageRank come evoluzione dei fattori che concorrono al posizionamento di un sito web in Google

I motori di ricerca sono sistemi automatici che dopo una prima raccolta e analisi di dati restituisce una “classifica” di documenti reperibile in rete in base a formule matematiche che ne indicano il grado di rilevanza in corrispondenza di una chiave di ricerca.

Numerosi sono i motori di ricerca presenti in rete e di conseguenza differenziati risultano i dati elaborati per chiave di ricerca. Quello maggiormente usato su scala mondiale è Google (Google ha dichiarato di avere 8 Miliardi di pagine,ma è solo una minima parte del web, esistendo anche il “Web Invisibile”) e sono concorrenziali ad esso Yahoo e Live (motore di ricerca della Microsoft). Ne seguono molti altri che sfruttano algoritmi non proprietari.

Lavoro iniziale dei motori di ricerca è l’analisi del sito (momento in cui software detti crawler o spider o robot sondano la rete seguendo gli URL e memorizzando nel database tutte le informazioni che compongono una pagina web. Gli spider entrano in un sito e ne leggono il codice sorgente, memorizzano quanto trovano (testo contenuto in essa, anzianità della pagina, aggiornamento e caratteristiche in genere che la compongono) e seguono gli URL che sono contenuti nella pagina. I dati raccolti saranno utilizzati nella successiva fase di catalogazione che sarà necessaria per avere una corrispondenza tra la ricerca effettuata dagli utenti e la risposta dei motori in base ad un indice di rilevanza tra i risultati estrapolati. Tale classifica sarà frutto di parametri e algoritmi strettamente legati ad ogni motore. Il risultato sarà un elenco, definito meglio come “risultati della ricerca” in cui si noterà un titolo ed una descrizione sintetica di quanto è trattato da ognuno dei siti individuati.

Un motore di ricerca lo rende migliore di un altro nell’estrapolazione di questi dati affinché siano più attinenti il più possibile alla ricerca effettuata dall’utente.
Uno dei primi fattori che concorreva alla creazione di questo” “criterio di posizionamento” (detto anche “page ranking”) era basato sull’utilizzo dei tags “keywords”, “description” e sulla “keywords density” (conteggio delle parole all’interno della pagina), ma con il crescere del numero di siti registrati ci fu la necessità di avere visibilità nei primi posti dei motori di ricerca, cosi chi si occupava di gestire un sito cercò di trovare l’esatto equilibrio tra la pagina web “perfetta” con la giusta ripetizione e posizione nel testo contenuto nella pagina delle parole chiave. Ci fu uno sfruttamento di queste tecniche generando una forma di spamming (“keyword stuffing”), realizzando testi che avevano come unico scopo ripetizioni della parola chiave accompagnate dalla presenza di una serie infinita di termini correlati tematicamente e semanticamente.

La risposta dei motori di ricerca fu di creare algoritmi più complessi al fine di filtrare queste pagine che avevano poco o nulla di attinente alla chiave di ricerca correlata.
Uno di questi parametri fu la “link popularity”. Tale criterio si basava sul fatto che più una pagina era linkata maggiore era la sua diffusione e conoscenza fra il pubblico e quindi maggiore doveva anche essere l’importanza decretata dagli utenti del web. Il risultato ne era la sua premiazione da parte dei motori dei ricerca per ciò che riguardava il posizionamento.
Nuovamente immediata fu la risposta dei “SEO” (il SEO, Search Engine Optimizer, si occupa di ottimizzare il sito web avendo come scopo il migliorarne la posizione all’interno delle “serps”. Il SEO studia quindi il comportamento del motore di ricerca, e modifica il sito in gestione affinché risulti più accattivante sia per i motori che per gli utenti del web), che corsero alla creazione di “link farms” (fabbriche di link) per mostrare ai motori di ricerca un’alta popolarità del sito in questione.

I Motori di ricerca risposero con un nuovo parametro: la “link analysis”. Si cercava quindi non solo di conteggiare la quantità di link ma di analizzare i siti da cui arrivavano tali link.
E’ da questa momento che si svolge il passaggio dai fattori “on page” (fattori ottimizzabili per il posizionamento e sui quali il SEO ha maggiore controllo) ai fattori “off page”.
I fattori on page sono quindi i fattori che contraddistinguono il contenuto della pagina, ad esempio tra essi si possono elencare l’anzianità del dominio, la lunghezza del testo e eventuale presenza di errori grammaticali, la distribuzione delle parole chiave all’interno della pagina, i meta tag, il title, i link interni alle varie pagine del sito, l’aggiornamento del testo contenuto in essa, ecc…
A differenza dai fattori on page quelli off page fanno riferimento agli inbound liks che muovono in direzione del sito. Google ha focalizzato l’attenzione su questo problema dei link introducendo un ulteriore elemento al problema dell’indicizzazione dei siti web: il PageRank.

Il termine “PageRank “ nasce nel 1998 grazie a Sergey Brin e Larry Page in “ The Anatomy of a Large-Scale Hypertextual Web Search Engine”, ed è un algoritmo di valutazione della rilevanza di una pagina attraverso concetti matematici.
Il PageRank assegnato da Google è un valore che viene dato ad una pagina web, ed è basato sul numero e sulla qualità dei link esterni al sito che quella pagina riceve.

In realtà la determinazione del PageRank è molto più complesso e articolato, non è solo una questione di conteggio dei link ma soprattutto della qualità di essi basata sull’importanza del sito da cui proviene il link, se ad esempio si riceve un link dal quotidiano online “laRepubblica” esso avrà maggior “peso” di un link proveniente da un giornale online di minor popolarità e autorevolezza. Oltre a questo il PageRank viene calcolato in base e molteplici fattori come il numero dei visitatori, l’anzianità del sito, ecc….

Il PageRank è quindi un attributo di qualità dei documenti presenti nel suo database. Tale punteggio in un primo momento veniva effettuato periodicamente ed era visibile tramite la Google toolbar poi sempre più dinamicamente, ponendo termine alla “Google dance”, che era il momento in cui cadeva. Si trattava difatti di un momento di assestamento in cui i dati da una ricerca su Google non erano definitivi ma “danzavano” per poi assestarsi nuovamente. Dall’estate del 2003 gli effetti della Google dance non vengono più riscontrati.
Facendo un parallelo si può paragonare il PageRank al concetto di popolarità delle relazioni sociali umane e ha valenza democratica in quanto il “voto” della sua popolarità è riconducibile ai collegamenti presenti verso la pagina del sito. Più alto sarà la popolarità del sito, più alta risulterà essere il valore dei voti (link) che quello stesso sito può esprimere.

Queste “votazioni democratiche” unite alla pertinenza del contenuto della pagina e delle pagine correlate hanno lo scopo di dare una maggiore garanzia sui risultati delle ricerche.
Il Pagerank è un algoritmo che usa la teoria dei processi di Markov ed è classificato nella categoria degli algoritmi di Link Analysis Ranking. La sua formula sviluppata dai fondatori di Google (Sergey Brin e Larry Page) è la seguente:

PR[A] = (1 – d) + d ( PR[T1]/C[T1] + … + PR[Tn]/C[Tn])

Dove:

  • PR[A] è il valore di PageRank della pagina A che vogliamo calcolare
  • T1…Tn sono le pagine che contengono almeno un link verso A
  • PR[T1] … PR[Tn] sono i valori di PageRank delle pagine T1 … Tn
  • C[T1] … C[Tn] sono il numero complessivo di link contenuti nella pagina che offre il link
  • d (damping factor) è un fattore deciso da Google e che nella documentazione originale assume valore 0,85. Può essere aggiustato da Google per decidere la percentuale di PageRank che deve transitare da una pagina all’altra e il valore di PageRank minimo attribuito ad ogni pagina in archivio.

Tutto ruota attorno ai link, sia all’ “anchor text” attraverso il quale si riceve il collegamento (che riceve maggior “considerazione” se rappresenta anche una keywords) , il pagerank da cui ha provenienza il link, la pertinenza delle pagine da cui proviene il link che deve essere in relazione con i termini di ricerca, e il numero di link in uscita che provengono dalla pagina (più alto è il numero di link in uscita da una pagina web minore è il peso che riceve quel link).

Il PageRank è un fattore importante per un buon posizionamento ma la sua importanza sta progressivamente diminuendo. Il suo valore effettivo non viene più correttamente mostrato nella Google toolbar in quanto ne è una lontana approssimazione e il valore mostrato difatti non viene aggiornato regolarmente. Non per questo risulterebbe da sottovalutare ma tenendolo in considerazione con molteplici altri fattori. Il Giudizio che google da ad un sito può essere riscontrato anche attraverso la copia cache del sito in esame. Essa rappresenta la copia memorizzata dall’ultima visita dello spider. Maggiore sarà questa frequenza di aggiornamento maggiore sarà l’importanza che ad esse viene attribuito.

Il PageRank non ha perduto la sua importanza ma l’attenzione per Google si sta ora concentrando verso il “TrustRank”

0 commenti

Lascia un Commento

Vuoi partecipare alla discussione?
Sentitevi liberi di contribuire!

Lascia un commento