Posizionamento di siti web: trustrank di Google contro i siti spam

GOOGLE CONTRASTA LO SPAM ATTRAVERSO IL TRUSTRANK E IL PHRASERANK

Il Pagerank sta perdendo il suo “peso” sul posizionamento a favore di altri fattori, o accompagnato da altri fattori che ne correggono il “valore”.
Rimane il suo valore quantitativo pittosto che qualitativo e viene accompagnato a fattori che col tempo stanno acquisendo sempre piu importanza per il loro valore di “precisione”. Per l’ottimizzazione di un sito va ancora tenuto in considerazione ma solamente associandolo a fattori quali di analisi “qualitativa” e “tematica” degli “inbound link”.
Al pagerank viene accompagnato il “TrustRank” e il “badrank”. Usato per la prima volta nel 2005 ( anche se realizzato anni prima), il TrustRank viene usato per una “misurazione qualitativa” dei link.
Oramai tutta l’attenzione per chi si occupa di posizionamento di siti va rivolta al trustrank in quanto ha piu valore il carattere qualità/fiducia e tematicità e non piu “incondizionata” potenza dei link in ingresso di un sito che determinavano il pagerank ma lasciavano spazio ai siti spam.
La logica che è alla base del trust rank è data dal rapporto di “fiducia” tra un sito ed un altro in quanto un sito di buona qualità non linkerà mai un sito di bassa qualità o spam (anche se questo potrebbe ancora sussistere a causa della vendita di link)
Per catalogare con punteggi che vanno dallo 0 all’1 i siti in base al trustrank si devono definire dei siti di qualità (“hubs” o “seeds”) attraverso l’analisi di “oracoli” (risorse umane ).
La catalogazione premia i portali o le directory piu conosciuti (ad esempio Yahoo, Dmoz, BBC, ecc), i siti governativi o di università, i siti che hanno una buona recensione da parte dei “quality raters”).


EVOLUZIONE DEL TRUSTRANK

Distrust – badrank
Si ha necessità di far “evolvere”e “ottimizzare” il TrustRank per migliorare sempre più i risultati di ricerca effettuati dagli utenti accompagnandolo al “distrust” o “badrank”. Questo è un trustrank inverso, difatti vengono analizzati non piu gli inbound links ma gli outbound links. L’assioma è che se un sito è collegato a siti spam sicuramente non sarà di buona qualità. Come per il trustrank ci sarà la necessità di catalogare dei sit spam da cui poi analizzare gli altri, generando però errori di valutazione nel caso in cui “incidentalmente” si linka un sito spam (caso in cui il vecchio sito – ora spam – ha cambiato dominio/proprietario)

Topical trustrank
Si è voluto un miglioramento ulteriore del TrustRank per non privilegiare solamente i siti appartenenti a famose community e si è cercato di equilibrare questo scompenso attraverso l’argomento trattante dai siti hubs e dalle matrici di links (vedi algoritmo Hilltop). Tale miglioramento va sotto il nome di “topical trustrank” . Il suo fattore negativo è quello di far aumentare i siti spam di piccole community e di siti di nicchia.

Link spam detection based on mass estimation
Ulteriore novità si è verificata con il “link spam detection based on mass estimation” per filtrare i network di siti spam. Si evita in questo modo la possibilità che ha un sito di farsi linkare da centinaia di siti spam che hanno un basso pagerank e con pochi link da siti trust. Per tale filtro si ricorre al calcolo duplicato del pagerank. Nel primo calcolo si tiene fede al metodo tradizionale, nel secondo ponendo maggior attenzione ai siti scelti precedentemente e facenti parte di hubs o seeds. Attraverso questo duplice calcolo è possibile riconoscere i siti spam se la percentuale di pagerank che arrivavano da siti spam supera quella dei siti trust e offrirà un’ alta garanzia di riconoscerli in quanto si puo presupporre quali siano i siti seeds o hubs ma non li si conosce con certezza. Lo svantaggio di tale filtro è la possibile penalizzazioni dovute a numerosi link da siti spam fatti da competitor.


POTENZIARE IL TRUSTRANK

Il trustrank può essere potenziato attraverso l’acquisto o lo scambio di link. Nel farlo bisognerebbe porre attenzione a siti “particolari” scegliendoli grazie a delle caratteristiche, ad esempio i siti che hanno le più alte posizioni nei risultati di ricerca per le keywords che ci interessano, i primi dieci risultati di ricerca per keywords tematiche/correlate, i siti che si ipotizza siano hubs o trust, i siti che hanno almeno un pagerank 5, i siti che siano registrati da almeno 5 anni.


PHRASERANK

Il Phraserank (ideato da Anna Pattersson) rappresenta un nuovo brevetto di Google ed è un decisivo passo in avanti nei fattori che concorrono al posizionamento di un sito.
Esso si basa su “frasi” che descrivono o indicizzano i documenti web e sul “modo” in cui queste frasi sono usate in rete (viene analizzato come tali frasi vengono usate negli altri siti per determinare se i contenuti della nostra pagina siano “rilevanti” o no).
Il Phraserank compie anche una relazione tra frasi “correlate (related phrases) o “estensioni” delle frasi (phrases extension) in corrispondenza a quelle presenti nel nostro sito e verifica quante di queste frasi correlate compaiono nel nostro documento. Tutto ciò per determinarne la rilevanza e conseguentemente ordinare e organizzare i risultati.
La novità introdotta dal Phraserank riguarda la scomposizione della query degli utenti in” frasi” e non più in “parole” e l’importanza attribuita a “pezzi di frase” presenti nel documento che devono trovare corrispondenza a frasi correlate ad ognuno di essi. Il motore di ricerca si “aspetta” di trovare un senso comune nel documento in base a ciò che si verifica nelle altre pagine in rete che hanno lo stesso “tema”.
Attraverso il phraserank il motore di ricerca si auto-istruisce sulle “frasi che contano” e su “quelle correlate” riuscendo a filtrare i siti spam in quanto il numero di “frasi correlate“ in esso sarà un numero molto più alto rispetto ad una pagina “normale”
Il Praserank decreta un decisivo passo per la “semantica” del web. Google porrà attenzione non più alle semplici keywords ma alla costruzione di frasi che le contengono.

BIG TABLE

Si tratta di un sistema di archiviazione (non l’unico), presente in Google dal 2005, che cataloga le variazioni nel tempo dei dati di un sito (ad esempio i link). Anche questo è un sistema per filtrare i siti spam (i siti “normali” hanno variazioni storiche molto piu lente ed omogenee per i link, gli aggiornamenti, la crescita di pagine nel sito, ecc). Inoltre si tratta di un sitema che ostacola gli spam engine.

DUPLICAZIONE DEI CONTENUTI

Una pagina viene definita duplicata a seconda dell’ “hash” (controllo effettuato tramite un “fingerprint numerico”), oppure tramite un” near duplicate” (la pagina viene analizzata da algoritmi a seconda di blocchi di essa).
Ogni motore utilizza metodi e algoritmi diversi per rilevare pagine duplicate e porterà nei risultati alla classificazione solamente di pagine non duplicate inserendo le altre in “risultati supplementari”. Ovviamente il loro riconoscimento è molto condizionato dai termini di ricerca effettuati dall’utente.
Tutto ciò porterà grosse novità soprattutto in Msn che ha un filtro molto piu potente degli altrui motori. Novità minori in Google, capace comunque di rilevare tutti i documenti web che “miscelano” parti di testo scovati in rete (esempio article marketing, rss fedd, press releases), mentre rappresenta una capacità molto bassa in Yahoo il cui filtraggio rimane scavalcato da semplicissime modifiche della composizione della pagina (esempio title e description).
Ulteriore differenza tra i tre motori è che Google risulta l’unico a penalizzare per la duplicazione di pagine, la cui penalizzazione a volte si estende all’intero sito di appartenenza. Riesce a compiere questa operazione grazie al brevissimo tempo che impiega ad analizzare i siti presenti nel web per ciò che riguarda il “furto” di testi da siti a siti e sulla realizzazione di pagine di uno stesso sito con “contenuti” duplicati.
Google applica vari livelli di penalizzazione a seconda dei casi:

  • “ridotta” – se la duplicazione riguarda solo una singola pagina che copia in modo intero o parziale un’altra, ciò porterà al decrescere del suo pagerank o trustrank.
  • “diffusa” – se a farne le spese è l’intero sito o più pagine di esso a causa della presenza all’interno di esso di una percentuale alta di pagine con contenuti duplicati. Per non incorrere in questo problema si possono bloccare gli spider sulle pagine interessate.
  • completo “banning del sito – se esso ha un basso trustrank e pagerank e ha una percentuale altissima di pagine che duplicano da altre. Si tiene conto del trustrank e pagerank per non bannare siti di press releases e article marketing.

La penalizzazione di un sito non è mai immediata, ma dopo un tempo di 10-30 giorni dalla sua indicizzazione. In questo lasso di tempo subisce un’ulteriore analisi di altri algoritmi.
La penalizzazione va comunque a salvaguardare alcuni siti, ad esempio siti di article marketing e press releases, nonché siti con struttura replicata. Quest’ultimo caso per salvaguardare siti come directory, database di e-commerce, ecc. Per questa eventualità la presenza di struttura duplicata è solo un indizio (fingerprint) e il sito può incorrere in un sospetto (“red-flag”)
Per non incorrere in penalizzazioni si sfruttano soluzioni specifiche a seconda dei casi:

  • nei siti che hanno domini differenti si effettua un redirect 301 sul dominio con il trustrank più elevato o differenziando il contenuto della pagina con welcome (anche in questo caso la pagina linkata è quella con trustrank più alto)
  • nei documenti che sono versioni stampabili di pagine web si possono bloccare gli spider

 

0 commenti

Lascia un Commento

Vuoi partecipare alla discussione?
Sentitevi liberi di contribuire!

Lascia un commento