Category Archives: Motori di ricerca

Posizionamento di siti web: trustrank di Google contro i siti spam

GOOGLE CONTRASTA LO SPAM ATTRAVERSO IL TRUSTRANK E IL PHRASERANK

Il Pagerank sta perdendo il suo “peso” sul posizionamento a favore di altri fattori, o accompagnato da altri fattori che ne correggono il “valore”.
Rimane il suo valore quantitativo pittosto che qualitativo e viene accompagnato a fattori che col tempo stanno acquisendo sempre piu importanza per il loro valore di “precisione”. Per l’ottimizzazione di un sito va ancora tenuto in considerazione ma solamente associandolo a fattori quali di analisi “qualitativa” e “tematica” degli “inbound link”.
Al pagerank viene accompagnato il “TrustRank” e il “badrank”. Usato per la prima volta nel 2005 ( anche se realizzato anni prima), il TrustRank viene usato per una “misurazione qualitativa” dei link.
Oramai tutta l’attenzione per chi si occupa di posizionamento di siti va rivolta al trustrank in quanto ha piu valore il carattere qualità/fiducia e tematicità e non piu “incondizionata” potenza dei link in ingresso di un sito che determinavano il pagerank ma lasciavano spazio ai siti spam.
La logica che è alla base del trust rank è data dal rapporto di “fiducia” tra un sito ed un altro in quanto un sito di buona qualità non linkerà mai un sito di bassa qualità o spam (anche se questo potrebbe ancora sussistere a causa della vendita di link)
Per catalogare con punteggi che vanno dallo 0 all’1 i siti in base al trustrank si devono definire dei siti di qualità (“hubs” o “seeds”) attraverso l’analisi di “oracoli” (risorse umane ).
La catalogazione premia i portali o le directory piu conosciuti (ad esempio Yahoo, Dmoz, BBC, ecc), i siti governativi o di università, i siti che hanno una buona recensione da parte dei “quality raters”).


EVOLUZIONE DEL TRUSTRANK

Distrust – badrank
Si ha necessità di far “evolvere”e “ottimizzare” il TrustRank per migliorare sempre più i risultati di ricerca effettuati dagli utenti accompagnandolo al “distrust” o “badrank”. Questo è un trustrank inverso, difatti vengono analizzati non piu gli inbound links ma gli outbound links. L’assioma è che se un sito è collegato a siti spam sicuramente non sarà di buona qualità. Come per il trustrank ci sarà la necessità di catalogare dei sit spam da cui poi analizzare gli altri, generando però errori di valutazione nel caso in cui “incidentalmente” si linka un sito spam (caso in cui il vecchio sito – ora spam – ha cambiato dominio/proprietario)

Topical trustrank
Si è voluto un miglioramento ulteriore del TrustRank per non privilegiare solamente i siti appartenenti a famose community e si è cercato di equilibrare questo scompenso attraverso l’argomento trattante dai siti hubs e dalle matrici di links (vedi algoritmo Hilltop). Tale miglioramento va sotto il nome di “topical trustrank” . Il suo fattore negativo è quello di far aumentare i siti spam di piccole community e di siti di nicchia.

Link spam detection based on mass estimation
Ulteriore novità si è verificata con il “link spam detection based on mass estimation” per filtrare i network di siti spam. Si evita in questo modo la possibilità che ha un sito di farsi linkare da centinaia di siti spam che hanno un basso pagerank e con pochi link da siti trust. Per tale filtro si ricorre al calcolo duplicato del pagerank. Nel primo calcolo si tiene fede al metodo tradizionale, nel secondo ponendo maggior attenzione ai siti scelti precedentemente e facenti parte di hubs o seeds. Attraverso questo duplice calcolo è possibile riconoscere i siti spam se la percentuale di pagerank che arrivavano da siti spam supera quella dei siti trust e offrirà un’ alta garanzia di riconoscerli in quanto si puo presupporre quali siano i siti seeds o hubs ma non li si conosce con certezza. Lo svantaggio di tale filtro è la possibile penalizzazioni dovute a numerosi link da siti spam fatti da competitor.


POTENZIARE IL TRUSTRANK

Il trustrank può essere potenziato attraverso l’acquisto o lo scambio di link. Nel farlo bisognerebbe porre attenzione a siti “particolari” scegliendoli grazie a delle caratteristiche, ad esempio i siti che hanno le più alte posizioni nei risultati di ricerca per le keywords che ci interessano, i primi dieci risultati di ricerca per keywords tematiche/correlate, i siti che si ipotizza siano hubs o trust, i siti che hanno almeno un pagerank 5, i siti che siano registrati da almeno 5 anni.


PHRASERANK

Il Phraserank (ideato da Anna Pattersson) rappresenta un nuovo brevetto di Google ed è un decisivo passo in avanti nei fattori che concorrono al posizionamento di un sito.
Esso si basa su “frasi” che descrivono o indicizzano i documenti web e sul “modo” in cui queste frasi sono usate in rete (viene analizzato come tali frasi vengono usate negli altri siti per determinare se i contenuti della nostra pagina siano “rilevanti” o no).
Il Phraserank compie anche una relazione tra frasi “correlate (related phrases) o “estensioni” delle frasi (phrases extension) in corrispondenza a quelle presenti nel nostro sito e verifica quante di queste frasi correlate compaiono nel nostro documento. Tutto ciò per determinarne la rilevanza e conseguentemente ordinare e organizzare i risultati.
La novità introdotta dal Phraserank riguarda la scomposizione della query degli utenti in” frasi” e non più in “parole” e l’importanza attribuita a “pezzi di frase” presenti nel documento che devono trovare corrispondenza a frasi correlate ad ognuno di essi. Il motore di ricerca si “aspetta” di trovare un senso comune nel documento in base a ciò che si verifica nelle altre pagine in rete che hanno lo stesso “tema”.
Attraverso il phraserank il motore di ricerca si auto-istruisce sulle “frasi che contano” e su “quelle correlate” riuscendo a filtrare i siti spam in quanto il numero di “frasi correlate“ in esso sarà un numero molto più alto rispetto ad una pagina “normale”
Il Praserank decreta un decisivo passo per la “semantica” del web. Google porrà attenzione non più alle semplici keywords ma alla costruzione di frasi che le contengono.

BIG TABLE

Si tratta di un sistema di archiviazione (non l’unico), presente in Google dal 2005, che cataloga le variazioni nel tempo dei dati di un sito (ad esempio i link). Anche questo è un sistema per filtrare i siti spam (i siti “normali” hanno variazioni storiche molto piu lente ed omogenee per i link, gli aggiornamenti, la crescita di pagine nel sito, ecc). Inoltre si tratta di un sitema che ostacola gli spam engine.

DUPLICAZIONE DEI CONTENUTI

Una pagina viene definita duplicata a seconda dell’ “hash” (controllo effettuato tramite un “fingerprint numerico”), oppure tramite un” near duplicate” (la pagina viene analizzata da algoritmi a seconda di blocchi di essa).
Ogni motore utilizza metodi e algoritmi diversi per rilevare pagine duplicate e porterà nei risultati alla classificazione solamente di pagine non duplicate inserendo le altre in “risultati supplementari”. Ovviamente il loro riconoscimento è molto condizionato dai termini di ricerca effettuati dall’utente.
Tutto ciò porterà grosse novità soprattutto in Msn che ha un filtro molto piu potente degli altrui motori. Novità minori in Google, capace comunque di rilevare tutti i documenti web che “miscelano” parti di testo scovati in rete (esempio article marketing, rss fedd, press releases), mentre rappresenta una capacità molto bassa in Yahoo il cui filtraggio rimane scavalcato da semplicissime modifiche della composizione della pagina (esempio title e description).
Ulteriore differenza tra i tre motori è che Google risulta l’unico a penalizzare per la duplicazione di pagine, la cui penalizzazione a volte si estende all’intero sito di appartenenza. Riesce a compiere questa operazione grazie al brevissimo tempo che impiega ad analizzare i siti presenti nel web per ciò che riguarda il “furto” di testi da siti a siti e sulla realizzazione di pagine di uno stesso sito con “contenuti” duplicati.
Google applica vari livelli di penalizzazione a seconda dei casi:

  • “ridotta” – se la duplicazione riguarda solo una singola pagina che copia in modo intero o parziale un’altra, ciò porterà al decrescere del suo pagerank o trustrank.
  • “diffusa” – se a farne le spese è l’intero sito o più pagine di esso a causa della presenza all’interno di esso di una percentuale alta di pagine con contenuti duplicati. Per non incorrere in questo problema si possono bloccare gli spider sulle pagine interessate.
  • completo “banning del sito – se esso ha un basso trustrank e pagerank e ha una percentuale altissima di pagine che duplicano da altre. Si tiene conto del trustrank e pagerank per non bannare siti di press releases e article marketing.

La penalizzazione di un sito non è mai immediata, ma dopo un tempo di 10-30 giorni dalla sua indicizzazione. In questo lasso di tempo subisce un’ulteriore analisi di altri algoritmi.
La penalizzazione va comunque a salvaguardare alcuni siti, ad esempio siti di article marketing e press releases, nonché siti con struttura replicata. Quest’ultimo caso per salvaguardare siti come directory, database di e-commerce, ecc. Per questa eventualità la presenza di struttura duplicata è solo un indizio (fingerprint) e il sito può incorrere in un sospetto (“red-flag”)
Per non incorrere in penalizzazioni si sfruttano soluzioni specifiche a seconda dei casi:

  • nei siti che hanno domini differenti si effettua un redirect 301 sul dominio con il trustrank più elevato o differenziando il contenuto della pagina con welcome (anche in questo caso la pagina linkata è quella con trustrank più alto)
  • nei documenti che sono versioni stampabili di pagine web si possono bloccare gli spider


Algoritmi di Google: indicizzazione di siti web nel passato


PASSATO DEI MOTORI DI RICERCA

Nel passato i fattori predominanti per il posizionamento erano i fattori “on page” invariabilmente per i tre motori di ricerca principali ( >Google, Yahoo, >Msn), quindi come veniva “strutturata” la pagina web per ciò che concerne il testo, il title, le keywords, ecc…
Google inizia a differenziarsi dagli altri ponendo attenzione ai fattori “off page” e introducendo il concetto di >Pagerank, a cui si associano col tempo dei nuovi algoritmi che vengono introdotti caratterizzandone i “momenti storici della sua vita”.

  • 2003 – termina il concetto di >Google dance, gli aggiornamenti non sono più a scansione di tempo ma giornalieri (“everflux”)
  • Novembre 2003 – Il “Florida update” introduce lo “ >stemming”(azione effettuata dal motore di ricerca per riconoscere non solamente il termine cercato dall’utente ma estendendo ad esso anche parole che hanno la stessa radice linguistica) e la penalizzazione dei siti sovra-ottimizzati (“OOP – over optimization penalty”)
  • Febbraio 2004 – Aggiustamento del Pagerank tramite l’algoritmo “ >Hilltop” ( il pagerank pone attenzione alla qualità e quantita di link che una pagina web riceve, l’algoritmo HillTop valuta solamente gli “ >inbound link” da pagine considerate “esperte” sulle ricerche effettuate dall’utente)
  • Ottobre 2005 – Jagger update. Si ha la necessità di diminuire il valore dei link di “scambio” tra siti per aumentarne il pagerank e si effettua la “canonicalizzazione” degli >URL per riconoscere l’unico indirizzo per la stessa pagina (esempio: magicnet.it e www.magicnet.it)

Nel presente, Google pone ancor maggior attenzione ai fattori “off page” come contrasto ai siti >spam. Per una maggior rilevanza tra i termini di ricerca effettuati e i risultati ottenuti nasce il “ >TrustRank” che fa perdere importanza al pagerank in quanto si concentra sulla qualità degli inbound links e outbound links, fa scomparire la correttezza della visualizzazione nella toolbar di google del pagerank (oramai aggiornato solo con imprecisione e saltuariamente, a differenza di come avviene nella realtà) e aumenta l’importanza dei “quality raters”, avendo la necessità di bannare siti e creare una catalogazione di siti “Hubs” e “Seeds” (“siti di qualità”).
Il presente è anche caratterizzato da novità non ancora dichiarate da Google, ad esempio il controllo del traffico su una pagina web tramite toolbars, analitycs, proxy, controllo della permanenza degli utenti in una pagina web o redirect in altre, attenzione su localizzazione geografica del server accompagnata all’importanza dall’ estensione di dominio.

Algoritmi di Google per l’indicizzazione di siti web: algoritmo HillTop

L’ALGORITMO “HILLTOP” COME NOVITA’ NEI FATTORI “OFF PAGE”

Un nuovo momento contraddistingue la storia di Google nella sua corsa ad ostacolare i siti spam: l’”Austin Update”.

A differenza del precedente Florida Update dove vi furono novità sostanziali e ripercussioni molto più considerevoli, nel febbraio del 2004 fa la sua apparizione l’ “Algoritmo HillTop”.

Chi inizia a parlare della necessità di Google di filtrare i siti spam e dare risultati più rilevanti per l’utente ponendo sempre più attenzione ai fattori “off page” e ai relativi criteri di importanza dei “link inbound” è Khrisna Barat (ingegnere di Google e creatore di Google news ) che insieme a George A. Mihaila pubblica nel 2002 “ When experts agree: using non-affiliated experts to rank popular topics”.

Khrisna Barat aveva già pubblicato “Improved algorithms for topic distillation in a hyperlinked environment” sulla filtrazione e raffinazione del topic di un documento e “The Term Vector Database: fast access to indexing terms for Web pages” sulla creazione di vettori di termini.

Nel documento del 2002 afferma: “ il PageRank ha il limite di non poter distinguere fra pagine autorevoli in generale e pagine autorevoli relativamente all’argomento della ricerca. In particolare un sito autorevole in generale può contenere una pagina che soddisfa una certa query ma che non è autorevole rispetto all’argomento”. Google difatti se interrogato su keywords molto popolari restituiva un altissimo numero di documenti a volte non rilevanti, si doveva risolvere questo problema che aveva radici nell’ “Information Retrieval” classica dove non si teneva conto dell’autorevolezza della fonte e lasciava campo aperto a documenti poco utili.

Se ad esempio un sito con un alto PageRank in quanto “popolare” e quindi con molti link inbound tratta vari argomenti, ciò non significa che per ognuno di essi sia autorevole allo stesso modo.

L’algoritmo HillTop va a correggere questo possibile errore del PageRank. Quest’ultimo pone attenzione alla qualità e quantita di link che una pagina web riceve, l’algoritmo HillTop valuta solamente gli inbound link da pagine considerate “esperte” sulle ricerche effettuate dall’utente.

Le prime operazioni dell’algoritmo sono per creare una lista di documenti “esperti” in quel tema per poi distinguere i link più “considerevoli” alle keywords che l’utente cerca per cosi successivamente fare una scelta di posizionamento.

Hilltop introduce il concetto di “expert sites”, siti con PageRank elevato e che trattano un argomento simile. Difatti assegnerà ai documenti in rete dei punteggi di autorevolezza aggiustando i risultati ottenuti con gli altri parametri usati da Google, così guidando i risultati finali verso una migliore corrispondenza tra le chiavi di ricerca e le aspettative degli utenti.

Per un corretto funzionamento tale algoritmo ha comunque la necessità di considerare un alto numero di “documenti esperti” in caso contrario il suo utilizzo è inefficace. Ciò non rappresenta un limite in quanto su chiavi di ricerca non molto popolari non ci sarà la necessità nell’accuratezza dei risultati.

Il problema è ora capire in modo più specifico come questo algoritmo riesce a selezionare i documenti esperti.

Il primo requisito che deve rintracciare HillTop è che i link non provengano da siti affiliati. Sono ritenuti tali se si verifica almeno una delle due circostanze:

  • I due siti dividono gli ultimi tre ottetti di un indirizzo IP
  • La sezione più a destra e non generica del nome del dominio è la stessa.

Prima di rintracciare i documenti esperti HillTop contraddistingue con un indice i siti ritenuti affiliati, questo per verificare velocemente se sono associati. I link in uscita sono confrontati con l’indice di affiliazione, solo se gli outbound link non sono diretti verso siti non affiliati sono considerati come pagine “esperte”.

Dopo questo controllo sulle affiliazioni si crea un indice di documenti “esperti”. Quest’indice viene creato attraverso il database del motore e estraendone i documenti considerati buone sorgenti di link tematizzati.

Hilltop tiene inoltre in considerazione anche degli argomenti trattati delle pagine verso cui i link puntano, questi devono essere omogenei.

L’algoritmo HillTop ha anche la necessità di ordinare i risultati, nel far questo tiene in considerazione solo di alcune parti di una pagina web che chiama “frasi chiave” (da non confondere con le chiavi di ricerca digitate dagli utenti) e corrisponde ad una sezione del testo e della struttura della pagina web che qualifica i link in uscita.

Il tag title ad esempio viene aggregato ad ogni link in uscita (outbound link), il testo in H1 viene aggregato ad ogni outbound link fino a quando non ne viene riscontrato uno della stessa o maggiore importanza, l’anchor text viene aggregato unicamente al link corrispondente.

L’algoritmo non fa altro che valutare la lista di pagine web “esperte” che risultano considerevoli rispetto ad una ricerca effettuata nei motori e ciò risulta se è presente almeno un link che contiene tutti i termini di ricerca nelle “frasi chiave” che lo qualificano.

Il punteggio alle pagine web esperte sarà assegnato in base al numero e al tipo di “frasi chiave” (tag title, H1, H2, H3, anchor text, ecc…) comprendenti i termini di ricerca.

Penalizzazione siti web sovra-ottimizzati: Google e tecnologia Stemming

Nella metà di novembre 2003 si produsse un rilevante cambiamento in Google. Un significativo aggiornamento si verificò nelle “serps” di questo motore di ricerca tanto da far scomparire o apparire in millesima posizione migliaia di siti. A questa “novità” venne dato il nome di “Florida update”, per tale scelta vennero attribuiti vari significati, o per l’effetto di un tornado (Florida appunto) o per ricordare il conteggio di voti non chiaro avvenuto in Florida che aveva portato all’elezione di George W. Bush alla presidenza degli Stati Uniti.

Ciò che apparve immediatamente evidente a tutti fu che non tutte le ricerche avevano subito modifiche, ma solo un grande e limitato numero di keywords erano state negativamente influenzate. Questo significava che Google aveva applicato nuovi filtri ad alcune keywords ma non a tutte.
Chi ne fece le spese furono soprattutto i gestori di siti e-commerce, dato il periodo pre-natalizio in cui si verificò. L’impatto che il volume di traffico ( e il conseguente fatturato) è generato attraverso un motore di ricerca può far comprendere l’irritazione di chi effettua vendite online di prodotti o servizi. Molti di essi dovettero addirittura chiudere la loro attività.
I risultati delle pagine di ricerca portarono a risultati di serps qualitativamente molto scarsi, siti che erano nelle primissime posizioni di Google scomparsero a beneficio di siti che non ne avevano le stesse caratteristiche. Successivamente la situazione si ripristinò riportando i siti penalizzati alle originarie posizioni annullando gli effetti negativi del “Florida update”

Ci fu chi teorizzo che tale cambiamento aveva privilegiato gli interessi che Google nutriva verso gli inserzionisti. Chi pagava difatti per gli annunci AdWords non vide peggioramenti significativi di traffico e relativo fatturato economico.

La risposta del motore di ricerca a tali accuse fu di voler affinare i fattori che concorrevano al posizionamento dei siti.
“I primi segnali che abbiamo sono molto positivi e ci dimostrano che noi abbiamo avuto ragione nello scegliere di migliorare ulteriormente la pertinenza del nostro motore, come hanno anche già fatto i nostri competitor”, ha spiegato alla stampa Wayne Rosing, vicepresidente dell’attività motore di ricerca per Google. “Del resto, solo il 3-5% delle inserzioni sono state danneggiate da questo cambio di calcolo delle classifiche e le nostre due attività (motore e pubblicità) sono totalmente distaccate.”
L’obiettivo era quindi di voler ostacolare i siti spam. Google è difatti notoriamente contrario a tecniche che influenzano l’assegnazione di “rilevanza” di qualsiasi documento web e il ranking dei siti

Dal Florida update vennero quindi alla luce nuovi filtri per l’ottimizzazione, l’introduzione della tecnologia “stemming” e la penalizzazione di siti sovra-ottimizzato (OOP – over optimization penalty)
Per stemming si intende l’azione effettuata dal motore di ricerca di riconoscere non solamente il termine cercato dall’utente ma estendere ad esso anche parole che hanno la stessa radice linguistica, ad esempio se il termine cercato è “casa” estenderlo anche a “casalingo”.
Inizialmente Google riconosceva come unico separatore di termine il trattino, quindi motorediricerca e motore_di_ricerca nell’URL venivano “letti” in modo diverso. Creava così differenze nel posizionamento e penalizzazioni sia per il SEO che per l’utente vedendosi filtrati dei siti che in realtà trattavano lo stesso argomento. I domini dei siti furono proprio i primi che ebbero il privilegio di usufruire di questa novità dello stemming, poi anche il testo ottenne questo beneficio.
L’approccio linguistico di Googlebot fu quindi per:

  • Stemming
  • Lemmatisation – uso di un dizionario con le possibili variabili di una parola, per evitare ad esempio che non vengano considerati termini che hanno costruzione diversa per singolare e plurale
  • Abilità ad escludere o dividere gruppi di lettere interne ad una sequenza più ampia
    Abilità di disgiungere una sequenza alfabetica in parti con significati coerenti
  • Separazione degli acronimi più autorevoli e famosi
  • Capacità per lo spider di non tenere in considerazione alcune parole che non incidono sul conteso del testo in modo significativo

Come detto in precedenza altre all’introduzione della tecnologia stemming, il Florida update fece nascere la penalizzazione di siti sovra-ottimizzati (OOP – over optimization penalty).
Per sovra-ottimizzazione si intende la struttura la pagina di un sito web che presenta caratteristiche troppo “tematizzate” attorno ad una o più keywords e quindi costruita ponendo attenzione più ai motori di ricerca che all’utente che la naviga. Ad esempio la sua presenza in tutti i meta tag

  • Nome dominio – www.keyword.it
  • Nome de file della pagina – keyword1_keyword2.html
  • Title – keyword1_keyword2
  • Description e Keywords – keyword1 e keyword2 presente all’interno del meta description e keywords
  • Testo – keyword1 e keyword2 presente all’interno molte volte nel testo ed evidenziata in bold
  • H1 / H2 / H3 – keyword1 e keywords2
  • Link testuali – keywords1 e keywords2 nei vari link testuali della pagina
  • Alt tag delle immagini -> keyword1 e keyword2 ripetuta nei vari alt tag delle immagini

Malgrado tale tecnica non è considerata “illecita” come può esserla la ripetizione continua delle parole chiave (keywords stuffing) può comunque portare ad una penalizzazione, facendola slittare in una peggior posizione.
Google tiene sempre conto della naturalezza del sito (ad esempio, oltre a quanto detto, pone attenzione ad un uso eccessivo di anchor text che hanno lo stesso termine, facendoli perdere di valore.)
L’obiettivo di un buon posizionamento non sarà raggiunto se si sfruttano tali tecniche.

Fattori di posizionamento di siti web: fattori “on page ” e “off page”

Il PageRank come evoluzione dei fattori che concorrono al posizionamento di un sito web in Google

I motori di ricerca sono sistemi automatici che dopo una prima raccolta e analisi di dati restituisce una “classifica” di documenti reperibile in rete in base a formule matematiche che ne indicano il grado di rilevanza in corrispondenza di una chiave di ricerca.

Numerosi sono i motori di ricerca presenti in rete e di conseguenza differenziati risultano i dati elaborati per chiave di ricerca. Quello maggiormente usato su scala mondiale è Google (Google ha dichiarato di avere 8 Miliardi di pagine,ma è solo una minima parte del web, esistendo anche il “Web Invisibile”) e sono concorrenziali ad esso Yahoo e Live (motore di ricerca della Microsoft). Ne seguono molti altri che sfruttano algoritmi non proprietari.

Lavoro iniziale dei motori di ricerca è l’analisi del sito (momento in cui software detti crawler o spider o robot sondano la rete seguendo gli URL e memorizzando nel database tutte le informazioni che compongono una pagina web. Gli spider entrano in un sito e ne leggono il codice sorgente, memorizzano quanto trovano (testo contenuto in essa, anzianità della pagina, aggiornamento e caratteristiche in genere che la compongono) e seguono gli URL che sono contenuti nella pagina. I dati raccolti saranno utilizzati nella successiva fase di catalogazione che sarà necessaria per avere una corrispondenza tra la ricerca effettuata dagli utenti e la risposta dei motori in base ad un indice di rilevanza tra i risultati estrapolati. Tale classifica sarà frutto di parametri e algoritmi strettamente legati ad ogni motore. Il risultato sarà un elenco, definito meglio come “risultati della ricerca” in cui si noterà un titolo ed una descrizione sintetica di quanto è trattato da ognuno dei siti individuati.

Un motore di ricerca lo rende migliore di un altro nell’estrapolazione di questi dati affinché siano più attinenti il più possibile alla ricerca effettuata dall’utente.
Uno dei primi fattori che concorreva alla creazione di questo” “criterio di posizionamento” (detto anche “page ranking”) era basato sull’utilizzo dei tags “keywords”, “description” e sulla “keywords density” (conteggio delle parole all’interno della pagina), ma con il crescere del numero di siti registrati ci fu la necessità di avere visibilità nei primi posti dei motori di ricerca, cosi chi si occupava di gestire un sito cercò di trovare l’esatto equilibrio tra la pagina web “perfetta” con la giusta ripetizione e posizione nel testo contenuto nella pagina delle parole chiave. Ci fu uno sfruttamento di queste tecniche generando una forma di spamming (“keyword stuffing”), realizzando testi che avevano come unico scopo ripetizioni della parola chiave accompagnate dalla presenza di una serie infinita di termini correlati tematicamente e semanticamente.

La risposta dei motori di ricerca fu di creare algoritmi più complessi al fine di filtrare queste pagine che avevano poco o nulla di attinente alla chiave di ricerca correlata.
Uno di questi parametri fu la “link popularity”. Tale criterio si basava sul fatto che più una pagina era linkata maggiore era la sua diffusione e conoscenza fra il pubblico e quindi maggiore doveva anche essere l’importanza decretata dagli utenti del web. Il risultato ne era la sua premiazione da parte dei motori dei ricerca per ciò che riguardava il posizionamento.
Nuovamente immediata fu la risposta dei “SEO” (il SEO, Search Engine Optimizer, si occupa di ottimizzare il sito web avendo come scopo il migliorarne la posizione all’interno delle “serps”. Il SEO studia quindi il comportamento del motore di ricerca, e modifica il sito in gestione affinché risulti più accattivante sia per i motori che per gli utenti del web), che corsero alla creazione di “link farms” (fabbriche di link) per mostrare ai motori di ricerca un’alta popolarità del sito in questione.

I Motori di ricerca risposero con un nuovo parametro: la “link analysis”. Si cercava quindi non solo di conteggiare la quantità di link ma di analizzare i siti da cui arrivavano tali link.
E’ da questa momento che si svolge il passaggio dai fattori “on page” (fattori ottimizzabili per il posizionamento e sui quali il SEO ha maggiore controllo) ai fattori “off page”.
I fattori on page sono quindi i fattori che contraddistinguono il contenuto della pagina, ad esempio tra essi si possono elencare l’anzianità del dominio, la lunghezza del testo e eventuale presenza di errori grammaticali, la distribuzione delle parole chiave all’interno della pagina, i meta tag, il title, i link interni alle varie pagine del sito, l’aggiornamento del testo contenuto in essa, ecc…
A differenza dai fattori on page quelli off page fanno riferimento agli inbound liks che muovono in direzione del sito. Google ha focalizzato l’attenzione su questo problema dei link introducendo un ulteriore elemento al problema dell’indicizzazione dei siti web: il PageRank.

Il termine “PageRank “ nasce nel 1998 grazie a Sergey Brin e Larry Page in “ The Anatomy of a Large-Scale Hypertextual Web Search Engine”, ed è un algoritmo di valutazione della rilevanza di una pagina attraverso concetti matematici.
Il PageRank assegnato da Google è un valore che viene dato ad una pagina web, ed è basato sul numero e sulla qualità dei link esterni al sito che quella pagina riceve.

In realtà la determinazione del PageRank è molto più complesso e articolato, non è solo una questione di conteggio dei link ma soprattutto della qualità di essi basata sull’importanza del sito da cui proviene il link, se ad esempio si riceve un link dal quotidiano online “laRepubblica” esso avrà maggior “peso” di un link proveniente da un giornale online di minor popolarità e autorevolezza. Oltre a questo il PageRank viene calcolato in base e molteplici fattori come il numero dei visitatori, l’anzianità del sito, ecc….

Il PageRank è quindi un attributo di qualità dei documenti presenti nel suo database. Tale punteggio in un primo momento veniva effettuato periodicamente ed era visibile tramite la Google toolbar poi sempre più dinamicamente, ponendo termine alla “Google dance”, che era il momento in cui cadeva. Si trattava difatti di un momento di assestamento in cui i dati da una ricerca su Google non erano definitivi ma “danzavano” per poi assestarsi nuovamente. Dall’estate del 2003 gli effetti della Google dance non vengono più riscontrati.
Facendo un parallelo si può paragonare il PageRank al concetto di popolarità delle relazioni sociali umane e ha valenza democratica in quanto il “voto” della sua popolarità è riconducibile ai collegamenti presenti verso la pagina del sito. Più alto sarà la popolarità del sito, più alta risulterà essere il valore dei voti (link) che quello stesso sito può esprimere.

Queste “votazioni democratiche” unite alla pertinenza del contenuto della pagina e delle pagine correlate hanno lo scopo di dare una maggiore garanzia sui risultati delle ricerche.
Il Pagerank è un algoritmo che usa la teoria dei processi di Markov ed è classificato nella categoria degli algoritmi di Link Analysis Ranking. La sua formula sviluppata dai fondatori di Google (Sergey Brin e Larry Page) è la seguente:

PR[A] = (1 – d) + d ( PR[T1]/C[T1] + … + PR[Tn]/C[Tn])

Dove:

  • PR[A] è il valore di PageRank della pagina A che vogliamo calcolare
  • T1…Tn sono le pagine che contengono almeno un link verso A
  • PR[T1] … PR[Tn] sono i valori di PageRank delle pagine T1 … Tn
  • C[T1] … C[Tn] sono il numero complessivo di link contenuti nella pagina che offre il link
  • d (damping factor) è un fattore deciso da Google e che nella documentazione originale assume valore 0,85. Può essere aggiustato da Google per decidere la percentuale di PageRank che deve transitare da una pagina all’altra e il valore di PageRank minimo attribuito ad ogni pagina in archivio.

Tutto ruota attorno ai link, sia all’ “anchor text” attraverso il quale si riceve il collegamento (che riceve maggior “considerazione” se rappresenta anche una keywords) , il pagerank da cui ha provenienza il link, la pertinenza delle pagine da cui proviene il link che deve essere in relazione con i termini di ricerca, e il numero di link in uscita che provengono dalla pagina (più alto è il numero di link in uscita da una pagina web minore è il peso che riceve quel link).

Il PageRank è un fattore importante per un buon posizionamento ma la sua importanza sta progressivamente diminuendo. Il suo valore effettivo non viene più correttamente mostrato nella Google toolbar in quanto ne è una lontana approssimazione e il valore mostrato difatti non viene aggiornato regolarmente. Non per questo risulterebbe da sottovalutare ma tenendolo in considerazione con molteplici altri fattori. Il Giudizio che google da ad un sito può essere riscontrato anche attraverso la copia cache del sito in esame. Essa rappresenta la copia memorizzata dall’ultima visita dello spider. Maggiore sarà questa frequenza di aggiornamento maggiore sarà l’importanza che ad esse viene attribuito.

Il PageRank non ha perduto la sua importanza ma l’attenzione per Google si sta ora concentrando verso il “TrustRank”