Come saprete ci occupiamo spesso di risoluzione di penalizzazioni di siti su Google, ma in questo post vi vogliamo parlare di un recupero di una penalizzazione manuale molto particolare.
Particolare perché? Perché il sito si ritrova penalizzato con un azione manuale per link innaturali a livello di intero sito, improvvisamente e senza aver mai fatto nessuna attività di link building,  ma in realtà da Google Search Console (GSC) si notavano qualcosa come 600.000 link che puntavano al sito!
Tutto ha inizio nei primi giorni di Febbraio 2015 quando il cliente riceve un avviso nel GSC ed il sito  web ha un crollo netto delle visite provenienti dalla ricerca organica, passando da una media di oltre 3000/4000 visite al giorno a poche decine.
Questo l’avviso che appare nel GSC di Azione manuale con “corrispondenze a livello di sitoâ€.
l cliente, capisce subito che il problema sono i link (che però non ha messo lui) e cerca da subito di fare da se. Prova a fare alcune richieste di reinclusione, cercando di spiegare a Google che non è colpa sua, ma vengono bocciate senza dare motivazioni (la normale comunicazione del motore di ricerca, purtroppo).
Si rivolge allora ad una agenzia SEO che conosce, la quale però gli dice che la situazione è compromessa e che conviene cambiare dominio e ripartire. Si tratta di un dominio con uno storico di anni, con un brand minore, ma  conosciuto nel settore e il proprietario vuole recuperarlo.
Ci contatta, e dopo avergli spiegato che la situazione è complessa ma che siamo fiduciosi nella riuscita, ci facciamo passare gli accessi Analytics e GSC.
La situazione che ci troviamo di fronte è questa:
Il sito del cliente, ha giusto qualche linkettino in entrata 🙂
Abbiamo quindi cercato di capire il motivo per cui il sito avesse oltre 600.000 link in entrata. Come prima ipotesi  pensavamo che il sito fosse stato bucato e quindi caricate sopra migliaia di pagine spam, linkate poi massicciamente dall’esterno, d’altronde ci è capitato molte volte di risolvere penalizzazione di questo tipo, però dopo aver sentito il cliente e analizzato per bene hosting e cms non ho trovato tracce di hacking.
Dopo aver raccolto ulteriori dati abbiamo invece capito che la situazione era più ingarbugliata, le pagine del sito cliente (sito editoriale in ambito moda con molte pagine dai contenuti buoni), venivano (ed ancora vengono) clonate in toto (includendo link interni,  banner adsense, codice analytics, rel canonical, script vari) su altri siti precedentemente bucati (parasite hosting), che poi fanno redirect o linkano pagine di affiliazioni per ecommerce esteri, sulla cui integrità e serietà non mi pronuncio…
Queste pagine clonate su siti bucati vengono poi massicciamente linkate (con migliaia di link) da forum, blog, siti internazionali a loro volta hackerati perché abbandonati o gestiti male, passando la pessima qualità di questi link al sito del cliente.
Ad  esempio:
Pagina sito cliente: www.sitocliente.it/borsegucci/
Pagina sito bucato: www.chiesadisantamarina.it/borsegucci/ è un clone esatto della pagina originale del cliente che parla delle borse gucci e reindirizza o linka (pseudo)ecommerce stranieri.
Pagina sito bucato: www.chiesadisantamarina.it/borsegucci/ riceve migliaia di link dall’esterno, ed avendo canonical e link interni verso la pagina originale passa a quest’ultima tutti i link di “ottima†qualità , scatenando l’ira del buon Google.
A questo punto pensiamo ad un piano di azione, che prevede:
- ridurre i link in entrata, segnalando nel disavow tutti i link malevoli e lasciando i tanti link naturali che riceve il sito;
- limitare il più possibile la clonazione delle pagine: questa attività è difficile perché le pagine vengono copiate in HTML, per cui non c’è possibilità di far includere PHP o altro, che permetterebbero di agire direttamente sulle pagine clone;
- limitare il passaggio di link juice dalle pagine clonate a quelle originali;
- far capire a Google che noi non siamo colpevoli ma che siamo sotto attacco Negative SEO, per cui è un problema anche loro il fatto che non riescano ad individuare questa attività .
Ecco punto punto come abbiamo proseguito nella bonifica:
Analisi dei Backlink
Qui abbiamo incontrato le prime serie difficoltà , per la natura dei backlink infatti tutti gli strumenti che abbiamo utilizzato (Majestic, Ahref e Open Site Explorer ) ci fornivano solo pochi link e per la maggior parte non più funzionanti perché i vari siti bucati venivano ripristinati o bloccati dai vari hosting, per cui avevamo per le mani una lista di siti poco utili.
Abbiamo deciso quindi di basarci solo sui link forniti da Google Search Console, lavorando solo su quello che vede Google (o almeno così dovrebbe essere).
Purtroppo la console permette di scaricare solo i primi 1000 domini principali (bottone Scarica questa Tabella)  e poi 100.000 link (bottone Scarica più link di esempio), ed in più abbiamo utilizzato anche i 100.000 link ordinati per data (bottone Scarica ultimi link).
non potevamo avere la totalità dei link in entrata ma avevamo comunque una buona base di partenza per iniziare l’analisi, analisi che inizialmente abbiamo effettuato manualmente ed in maniera casuale, in modo da farci una idea ed individuare un pattern dei backlink tossici.
Un piccolo colpo di fortuna è derivato dal fatto che, come già detto all’inizio, chi aveva clonato aveva anche duplicato il codice di tracciamento analytics in questo modo era possibile tramite google analytics risalire a quali erano questi siti bucati che duplicavano il sito cliente.
In Google Analytics infatti, andando nella sezione Pubblico -> Tecnologia -> Rete ed impostando come dimensione principale “nome hostâ€, si ottiene una lista di domini (che hanno ricevuto almeno una visita) in cui è stato caricato il codice analytics di quel determinato account. Escludendo il dominio del nostro sito abbiamo ottenuto un elenco di altri host, circa 90, che molto probabilmente rappresentavano i siti che sono stati bucati e nei quali è stato duplicato il nostro sito.
Diciamo probabilmente perchè da qualche mese è comparsa, nella maggior parte degli account analytics, una più o meno intensa attività di visite spam. Per verificare quali di quei 90 domini contiene la copia del nostro sito abbiamo utilizzato Screaming Frog, sfruttando i custom filter in modo da ottenere un elenco separato dei domini che contenevano nell’html il nostro codice analytics.
A questo punto, per rendere evidente che si tratta di un duplicato, soprattutto agli occhi del Team Antispam di Google, (che da li a poco avrebbe poi probabilmente controllato qualche backlink) abbiamo deciso di utilizzare una strategia di anti-hotlinking tramite htaccess. Questo era possibile in quanto avendo copiato l’intero codice html del nostro sito tutte le risorse venivano richiamate dal nostro dominio (immagini, css e js).
Utilizzando il seguente codice, al caricamento della pagina dei siti duplicati, il file stile.css veniva sostituito con logo.css ed il file logo.png con site-hacked.jpg
RewriteEngine on
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://([a-z0-9]+\.)?miodominio\.it      [NC]
RewriteRule ^(.*)stile\.css(.*)$ http://www.miodominio.it/logo.css   [NC,L]
RewriteRule ^(.*)logo\.png(.*)$ http://www.miodominio.it/site-hacked.jpg   [NC,L]
l’intento era quello di ottenere il seguente risultato 🙂
Risolto questo problema ed individuati quindi i domini bucati, bisognava distinguere tra i quasi 600.000 link, quali includere nel file disavow e quali preservare, in quanto il sito come detto ha ottenuto nel tempo diversi link di valore.
Essendo impensabile un analisi manuale, abbiamo utilizzato ancora Screaming Frog, suddividendo i backlink in gruppi da 50.000 link in modo da non avere i soliti problemi di memoria. In questo modo bastava utilizzare i custom filter in modo da cercare, nell’html del backlink, la presenza del nome dominio del nostro sito.
In assenza del nome dominio del cliente si trattava evidentemente di un link spam da includere nel disavow.
Questo perché in realtà , come spiegato ad inizio articolo, il nostro sito subiva una link building negativa indirettamente, in quanto i backlink non puntavano espressamente al nostro sito ma al sito bucato che conteneva la copia duplicata.
In questo modo una volta scansionati tutti i backlink con Screaming Frog è bastato escludere dalla lista completa le url che contenevano nell’html il nostro nome dominio per ottenere i backlink che hanno causato la penalizzazione. Una volta importate tutte le url rimanenti in excel le abbiamo troncate, in modo tale da inserire nel disavow l’intero dominio bucato ed essere sicuri di aver sterilizzato tutti i link dannosi.
Abbiamo caricato quindi il file di disavow,  e fatto il giorno stesso la richiesta di reinclusione, puntando soprattutto a  far comprendere al Team Antispam di Google che le migliaia di link in entrata sul sito non erano frutto di una nostra azione,  ma che eravamo vittime di un’azione massiccia di Negative SEO, peraltro ampiamente documentabile e documentata.
Dopo 7 giorni dalla richiesta di reinclusione, con grande sorpresa, (non speravamo di uscire cosi velocemente, dato l’enorme mole di link) abbiamo trovato questo graditissimo messaggio “Richiesta di riconsiderazione per http://: azione manuale relativa allo spam revocataâ€
Dopo un paio di giorni dalla comunicazione di Google della revoca dell’azione manuale il sito ha ripreso ad avere le visite organiche pre-penalizzazione come si vede anche dal grafico (bisogna considerare che il settore in cui opera il sito è soggetto a stagionalità ) e a tutt’oggi non ci sono stati ulteriori problemi.
Cliente ovviamente stracontento, come noi d’altronde, contenti di aver risolto in tempi rapidi una penalizzazione non banale.