Come rimuovere lo spam dei Referral da Google Analytics
Lo Spam dai Referral avviene quando il vostro sito riceve traffico inusuale da Bot e Referral sospetti e questo traffico viene registrato da Google Analytics, inficiando una lettura precisa dei dati reali (per esempio: aumentando il numero delle visite complessive) . Questi dati vanno eliminati da Google Analytics. Ecco come fare.
I Bot sono programmi realizzati per eseguire automaticamente delle operazioni ripetitive. Esistono vari Bot programmati per visitare più e più volte i siti web. Queste visite vengono registrate da Google Analytics, modificando così i dati dei reali visitatori.
Esiste una lista interminabile di Bot di questo tipo (dopo vedremo dove trovarla e come utilizzarla). I motivi per cui questi software vengono lanciati alla ricerca di siti da visitare possono essere molteplici:
- gonfiare il numero di visite ad un sito
- cercare e memorizzare indirizzi di posta presenti sulle pagine
- memorizzare il contenuto del sito
- diffondere malware e virus
Esistono dunque Bot buoni e Bot cattivi. Tra i buoni c’è quello di Google (GoogleBot), che viene a trovarci per memorizzare e indicizzare il contenuto del nostro sito. Tra i Referral buoni che troverete nell’elenco potrebbe esserci quello di Google Translate. Niente di male. Di solito i Bot buoni visitano il sito raramente, mentre quelli cattivi insistono nelle loro operazioni automatiche mordi-e-fuggi, anche perché sono spesso realizzati senza troppi filtri e controlli sulla qualità.
Un buon modo per trovare i Bot cattivi:
- Accedere a Google Analytics, selezionare un periodo abbastanza lungo (un mese, un anno… dipende dalla quantità complessiva di visite al vostro sito) ed entrare nel Report con le visite dai Referral (Acquisizione > Tutto il traffico > Referral)
- Ordinare la tabelle per Frequenza di Rimbalzo decrescente (da 100% in giù), oppure creare un segmento di traffico con Frequenza di Rimbalzo uguale a 100%. Controllate però anche quelli con poche visite. Spesso sono gli stessi domini trovati tra le visite molteplici, ma con un dominio di primo livello diverso (es.: www.dominio.com, xyz.dominio.com, 234.dominio.com, ecc.)
- Cercare i Referral che hanno Frequenza di Rimbalzo pari a 100% ed un notevole numero di visite (es.: più di 10). Questo dovrebbe separare nell’elenco dei sospetti i referral da cui ricevete parecchie visite dagli esseri umani interessati ai vostri contenuti, ma state comunque attenti ai nomi dei referral che trovate. Esempio: se la pagina della vostra ricetta della Paella ha ricevuto 90 visite da Giallozafferano.it, non è un dato da buttare via!
Nella tabella qui sopra, i quattro risultati sono sicuramente Bot cattivi, perché il sito analizzato non ha ragione di essere linkato e ricevere tante visite (con 100% di rimbalzo) da siti che nulla hanno a che fare con la pubblicazione spontanea di link alle vostre pagine. Non visitate quei siti! Il più delle volte contengono malware che possono infettare il vostro computer (e cercano di attirarvi sulle loro pagine proprio per questo).
Come eliminare questi dati da Google Analytics?
Un modo sembrerebbe essere quello di creare un filtro nello stesso Analytics che eviti di considerare questi dati nei report. Ma non elimina il problema delle visite. Semplicemente, dice ad Analytics di non contarle. Se vogliamo evitare il più possibile che i Bot entrino effettivamente nel nostro sito, occorre agire a livello di server. Il sistema che segue funziona per siti web residenti su server Linux, ma con le opportune modifiche (fatevi aiutare dal vostro webmaster) va bene anche per i server Windows.
Specifico inoltre che, con questo sistema, non vengono eliminate da analytics le visite dei Ghost Referral, cioè di quelli che non visitano fisicamente le pagine ma simulano solo la visita in modo che Analytics la conti.
Eliminare lo Spam dei Referral in Google Analytics
1. Scaricare via FTP e aprite il file .htaccess presente nella cartella principale del vostro spazio web (o createne uno)
2. Aggiungete questo codice
# BEGIN BLOCCO REFERRAL MALEVOLI
RewriteEngine on
RewriteCond %{HTTP_REFERER} ^([^.]+.)*?semalt.com [NC,OR]
RewriteCond %{HTTP_REFERER} ^([^.]+.)*?kambasoft.com [NC,OR]
RewriteCond %{HTTP_REFERER} ^([^.]+.)*?buttons-for-website.com [NC]
RewriteRule ^.* – [F]
# END BLOCCO REFERRAL MALEVOLI
Oppure, più elegantemente ed efficientemente (dal punto di vista del codice):
# BEGIN BLOCCO REFERRAL MALEVOLI
RewriteCond %{HTTP_REFERER} (?:buttons-for-website|kambasoft|semalt)\.com [NC]
RewriteRule ^ – [F]
# END BLOCCO REFERRAL MALEVOLI
Questo codice bloccherà i referral http e https da semalt.com, kambasoft.com e buttons-for-website.com e da tutti i rispettivi sotto-domini. Potete aggiungere altri domini, naturalmente, per ciascun referral sospetto.
Qui trovate una corposa blacklist di Bot e Spam Referral sicuramente da eliminare. Non mi fiderei troppo del copia-incolla del codice già scritto per il file .htaccess (ma potete provare e – se dovesse dare errori – tornare immediatamente al file htaccess originale): http://perishablepress.com/blacklist/ultimate-referrer-blacklist.txt
Per verificare i potenziali rischi derivati dalla presenza di questi Bot e altri modi per difendersi potete leggere l’ottimo articolo di Optimizesmart.com dal quale ho tratto ispirazione per questo post.
Hai anche tu molto Spam da Referral in Google Analytics? Racconta la tua esperienza.
Ottima spiegazione! Una domanda: nell’esempio di codice blocca bot la riga dove sono inserite le url dei bot malevoli è chiusa dal .com.
Questo cosa vuol dire? Che dobbiamo ripetere il codice tante volte quante sono le estensioni? (.org, .info, .ru ecc. ecc.)
Puoi provare a separare i domini con il carattere | (pipe). Es: com|net|org|ru|info
Se non funziona, prova così: dopo .com, sostituisci [NC] con [NC,OR] e incolla nuovamente la lista dei domini, questa volta terminando con un .net. Poi ripeti per .org, info, ecc. Esempio:
RewriteCond %{HTTP_REFERER} (?:buttons-for-website|kambasoft|semalt).com [NC,OR]
RewriteCond %{HTTP_REFERER} (?:buttons-for-website|kambasoft|semalt).org [NC,OR]
RewriteCond %{HTTP_REFERER} (?:buttons-for-website|kambasoft|semalt).net [NC]
L’ultima riga non contiene [OR]
Spero sia d’aiuto.
Ok provo, grazie.
P.s. Il problema che di questi maledetti bot cambiano continuamente url e alla fine a combattere questa guerra per minimizzare gli effetti diventa un lavoro nel lavoro.
Speriamo google trovi un rimedio ma la vedo dura.
A presto.
è proprio quello il problema, io li ho filtrati da analytics ma le url spesso cambiano e non si riesce mai a fare una pulizia completa.
ciao, grazie per questo articolo, io non sono una developer, e quindi perdona l’ignoranza, volevo chiederti se è possibile configurare questo file anche per un sito realizzato in html, e quindi non basato su un CMS, grazie ciao
Claudia
Ciao Claudia. Configurare questo file anche per un sito realizzato in html è possibilissimo. Il file .htaccess ha a che fare con il server, non con il modo in cui è stato realizzato il sito web. L’importante, in questo caso specifico, è che il server sul quale è ospitato il sito si basi su sistema Linux e non Windows. In caso di web server Windows la procedura è un po’ diversa (e non la conosco, avendo sempre lavorato su server Linux).
Ciao Marco, grazie. In effetti io sono su hosting Windows e quindi dovrei verificare, comunque molto utili le tue informazioni, ciao
Ciao Marco, ottimo post!! L’unico problema che ho riscontrato è quello relativo al blocco dei “Ghost”.. essendo che questi piccoli “maledetti” non effettuano un effettivo accesso al nostro sito internet, non si riesce a bloccarli tramite il .htaccess. Ottimo invece per i Crawler. Non pensi sia meglio utilizzare un filtro per i domini (e di conseguenza i sotto-domini) che risultano essere “non reali” così da essere sicuri che non li troveremo più tra i nostri dati? (almeno per il memento.. lo spam si rigenera quotidianamente!!),
Ciao Alessandro,
come dici giustamente, il sistema trattato nel post risolve (per quanto è possibile) solo il problema dei referral che effettuano l’accesso al sito (ed è meglio che io lo specifichi meglio nel mio articolo). Per i ghost sono necessari i filtri in Analytics. Ma bisogna stare attenti, perché se si filtra in modo sbagliato (per esempio filtrando i domini dai referral) potrebbero essere trasformati da Analytics in visite Direct, creando maggiore confusione (diventano impossibili da riconoscere, a meno che non arrivino tutti da un Paese improbabile per il nostro sito).
Google ha affermato di “essere al lavoro” per risolvere la questione. La prima cosa da fare è dunque cliccare sulla spunta “Filtro bot – Escludi tutti gli hit da bot e spider noti” nelle impostazioni della vista.
Per i filtri, consiglio di leggere l’articolo di Brian Clifton https://brianclifton.com/blog/2015/05/29/removing-referral-spam/ (e di agire con prudenza)
Si, assolutamente. I filtri sono delle armi a doppio taglio!! Avevo dimenticato di menzionare anche la funzione inclusa in Google Analytics del filtro bot delle impostazioni. Grazie mille e buon lavoro!!