Internet archive Wayback machine
Internet archive – Wayback machine è un archivio storico di oltre 279 miliardi di pagine Web, un sito Web che consente ai suoi visitatori di consultare pagine Web e in alcuni casi anche interi portali nel corso del tempo. Internet archive memorizza continuativamente migliaia e migliaia di pagine, con priorità rivolta ai siti più popolari, e le rende disponibili in un indice temporale facilmente consultabile. Basta un click per rendersi conto dell’effettiva potenzialità di tale strumento, in particolar modo quando si ha a che fare con il recupero di domini scaduti. Capita spesso, infatti, sia per errori umani sia per una strategia SEO di voler ripristinare, provvisoriamente, una versione del sito quanto più simile a quella originale completa di CSS immagini e javascript.
Può esserci d’aiuto una libreria in Ruby che, in combinazione con le API di wayback machine, consente di scaricare la copia integrale del sito Web tramite riga di comando.
Cosa fare per scaricare rapidamente la copia storica del nostro sito?
Scarica Ruby (per Windows)
Scarica l’ultima versione di Ruby ( >= 1.9.2 ) a questo indirizzo, installala e passa al punto successivo.
Importa lo script Wayback Machine Downloader
Esegui come amministratore il prompt dei comandi con Ruby.
Installa la libreria di wayback_machine_downloader digitando questo comando:
gem install wayback_machine_downloader
Cerca la versione del sito Web da scaricare
Ho effettuato il primo esperimento sul vecchio sito di PianoWeb
http://web.archive.org/web/20120826121114/https://pianoweb.eu/
Avvia il download
Il comando per scaricare interamente quello snapshot da riga di comando (prompt di comandi con Ruby) è:
wayback_machine_downloader https://pianoweb.eu/ --from 20120826121114
I tempi per il download dipendono dalla macchina che utilizziamo, dal tipo di connessione a disposizione e dall’intasamento del server di Wayback Machine, un sito sempre molto sovraccarico e lento. Per un sito di poche pagine occorreranno una decina di minuti.
Nel nostro caso il sistema ha impiegato 1160 secondi (quindi quasi 20 minuti).
Il risultato, da un punto di vista grafico non è stato molto soddisfacente, ma abbiamo comunque salvato correttamente tutte le pagine del sito Web, con tutti i contenuti divisi cartella per cartella.
Alcuni comandi che possono esserti utili
Lo script permette di applicare numerose opzioni di download per un uso avanzato. Vediamo insieme quali:
-d, –directory Directory in cui salvare i file scaricati.
L’impostazione predefinita è ./websites/ più il nome del dominio.
-s, –all-timestamps Scarica tutte le istantanee/timestamps per un determinato sito web
-f, –from TIMESTAMP Solo i file con o dopo il timestamp fornito (es. 20060716231334)
-t, –to TIMESTAMP Solo i file con o prima del timestamp fornito (es. 20100916231334)
-e, –exact-url Scarica solo l’url fornito e non il sito completo
-o, –only ONLY_FILTER Limita il download agli url che corrispondono a questo filtro
(usare la notazione // perché il filtro sia trattato come una regex)
-x, –exclude EXCLUDE_FILTER Salta il download degli url che corrispondono a questo filtro
(utilizzare la notazione // per trattare il filtro come una regex)
-a, –all Espande il download ai file di errore (40x e 50x) e ai reindirizzamenti (30x)
-c, –concurrency NUMERO Numero di file multipli da scaricare alla volta
L’impostazione predefinita è un file alla volta (cioè 20).
-p, –maximum-snapshot NUMERO Pagine di snapshot massime da considerare (l’impostazione predefinita è 100)
Conta una media di 150.000 istantanee per pagina
-l, –list Elenca solo gli url dei file in formato JSON con i timestamp archiviati, non scarica nulla.
Esempi:
- Scaricare un intero sito web in una directory specifica: wayback_machine_downloader http://www.pianoweb.eu -d /path/to/directory
- Scaricare un intero sito web in un intervallo di date specifico: wayback_machine_downloader http://www.pianoweb.eu -f 20180101000000 -t 20181231235959
- Scaricare solo i file HTML di un sito web: wayback_machine_downloader http://www.pianoweb.eu -o ‘.*.html’
- Scaricare solo una pagina specifica di un sito web: wayback_machine_downloader http://www.pianoweb.eu/page1.html -e
- Scaricare un intero sito web con download multipli contemporanei: wayback_machine_downloader http://www.pianoweb.eu -c 20
- Scaricare un intero sito web con una quantità massima di snapshot specifica: wayback_machine_downloader http://www.pianoweb.eu –maximum-snapshot 50
- Scaricare un intero sito web con download di file di errore e redirezioni: wayback_machine_downloader http://www.pianoweb.eu -a
- Elencare solo gli URL dei file archiviati di un sito web: wayback_machine_downloader http://www.pianoweb.eu -l
Cosa ne pensi? Hai sperimentato questa libreria?
Fammi sapere come ti sei trovato lasciando un commento qua sotto.
Buon download 😉
Fonti:
Un’idea nata da alcune discussioni sui gruppi facebook Fatti di SEO e Da Zero a SEO