In questo articolo vorrei affrontare gli errori 404 su Search Console causati da infezioni ai siti web con generazione di spam.
Può capitare sempre più frequentemente che un sito venga infettato da codice malevolo che causi serie problematiche di spam in uscita e copiosi errori 404. In una nostra consulenza seo abbiamo proprio affrontato questa problematica.
Come capire di essere infetti?
- Si creano migliaia di files nel sito web, spesso con caratteri giapponesi e tipicamente in formato JavaScript o Html.
- I title del proprio sito sono stati sostituito, inseme alle meta description
- Normalmente la quota disco si piena, a causa dei numerosi files generati
- Una volta rimosso il codice malevolo e i files corrotti si generano migliaia di errori 404 su Search Console / Webmaster Tools, che rimangono a lungo
I problemi generati da un attacco di questo tipo sono numerosi
- Rallentamento del crawler (si ingolfa nel vero senso della parola)
- Perdita inutile di crawl budget
- Perdita di linkjuice
- Perdita di trust e posizionamento
Quello che normalmente un utente medio fa è quello di cancellare manualmente gli errori, considerandoli risolti all’interno degli errori di scansione di Webmaster tools. Ma essi, periodicamente si ripresentano, anche a distanza di mesi dall’evento. Per cancellare definitivamente questi errori sarà necessario un altro tipo di intervento.
Come far dimenticare a Googlebot di visionare URL spam? Come far sparire eventuali URL spam dal motore di ricerca?
Le soluzioni sono principalmente 2
- Utilizzare lo strumento di rimozione URL di google
- Creare delle indicazioni di disallow sul file robots.txt
La prima strategia è molto lenta da implementare, mentre la seconda è decisamente più agevole quando le richieste sono superiori alle centinaia. La prima è una rimozione temporanea, la seconda, in mancanza della possibilità di eseguire una direttiva no-index è efficace e permanente (finché se ne avvertirà il bisogno).
Personalmente consiglierei di applicare entrambe le soluzioni per rimuovere immediatamente i risultati dalla SERP e di vietare al crawler di accedere alle pagine incriminate, salvando un’enorme quantità di crawl budget. Con due direttive contemporaneamente Google capirà meglio ciò che stiamo cercando di fare.
Per estrarre la lista degli errori 404 utilizziamo sempre webmaster tools, su errori di scansione, e selezioniamo scarica lista. Possiamo inoltre verificare se esistono altre anomalie in SERP e sfruttare strumenti come Screaming Frog per verificare anomalie interne.
Una volta ottenute le liste aggiornate dei 404 nel primo caso occorrerà inserire le URL a mano, mentre nel secondo potremo creare una tabella excel su due colonne, importare il tutto su notepad++ e successivamente riportare in maniera pulita i dati sul robots.txt.
Utilizzando questa strategia abbiamo ripulito definitivamente le SERP e ridotto drasticamente gli errori 404 di numerosi siti.
A voi è mai capitato di risolvere problemi analoghi?
Che strategia avete intrapreso?