
Come scaricare copie di siti scaduti – Wayback machine downloader
Contents
Internet archive Wayback machine
Internet archive – Wayback machine è un archivio storico di oltre 279 miliardi di pagine Web, un sito Web che consente ai suoi visitatori di consultare pagine Web e in alcuni casi anche interi portali nel corso del tempo. Internet archive memorizza continuativamente migliaia e migliaia di pagine, con priorità rivolta ai siti più popolari, e le rende disponibili in un indice temporale facilmente consultabile. Basta un click per rendersi conto dell’effettiva potenzialità di tale strumento, in particolar modo quando si ha a che fare con il recupero di domini scaduti. Capita spesso, infatti, sia per errori umani sia per una strategia SEO di voler ripristinare, provvisoriamente, una versione del sito quanto più simile a quella originale completa di CSS immagini e javascript.
Può esserci d’aiuto una libreria in Ruby che, in combinazione con le API di wayback machine, consente di scaricare la copia integrale del sito Web tramite riga di comando.
Cosa fare per scaricare rapidamente la copia storica del nostro sito?
Scarica Ruby (per Windows)
Scarica l’ultima versione di Ruby ( >= 1.9.2 ) a questo indirizzo, installala e passa al punto successivo.
Importa lo script Wayback Machine Downloader
Esegui come amministratore il prompt dei comandi con Ruby.
Installa la libreria di wayback_machine_downloader digitando questo comando:
1 | gem install wayback_machine_downloader |
Cerca la versione del sito Web da scaricare
Ho effettuato il primo esperimento sul vecchio sito di PianoWeb
http://web.archive.org/web/20120826121114/https://pianoweb.eu/
Avvia il download
Il comando per scaricare interamente quello snapshot da riga di comando (prompt di comandi con Ruby) è:
1 | wayback_machine_downloader https://pianoweb.eu/ --from 20120826121114 |
I tempi per il download dipendono dalla macchina che utilizziamo, dal tipo di connessione a disposizione e dall’intasamento del server di Wayback Machine, un sito sempre molto sovraccarico e lento. Per un sito di poche pagine occorreranno una decina di minuti.
Nel nostro caso il sistema ha impiegato 1160 secondi (quindi quasi 20 minuti).
Il risultato, da un punto di vista grafico non è stato molto soddisfacente, ma abbiamo comunque salvato correttamente tutte le pagine del sito Web, con tutti i contenuti divisi cartella per cartella.
Cosa ne pensi? Hai sperimentato questa libreria?
Fammi sapere come ti sei trovato lasciando un commento qua sotto.
Buon download 😉
Fonti:
Un’idea nata da alcune discussioni sui gruppi facebook Fatti di SEO e Da Zero a SEO
Debora
Settembre 20, 2018 at 4:24 pmSe un sito scaduto conteneva file o aveva bisogno di credenziali d’accesso è possibile comunque scaricarlo con questo sistema?
Giulio Cinelli
Gennaio 3, 2019 at 6:17 pmSe il sito scaduto conteneva dei file e questi non sono direttamente connessi al sito Web (es. file scaricabili direttamente da una pagina) sono andati sicuramente persi.
David
Gennaio 14, 2019 at 12:28 pmPer recuperare il sito dall’Archivio Web potresti utilizzare il servizio https://it.archivarix.com/
Giulio Cinelli
Gennaio 28, 2019 at 11:45 amInteressante link David! Lo proverò sicuramente…
Grazie per la segnalazione
Giovan Giuseppe Ferrandino
Ottobre 17, 2019 at 10:41 amOttima guida per la quale ti ringrazio.
Ora manca la seconda parte: come rimettere in piedi il sito. Dove vengono salvati gli articoli? Viene scaricato anche il database?
Spero che possa aiutarmi,
Giovan Giuseppe
Giulio Cinelli
Novembre 17, 2019 at 12:00 pmCiao Giuseppe, scusa il ritardo. Allora in questo caso vengono scaricati esclusivamente dei file statici, per cui avrai una copia del sito ma senza database. Dovrai poi ricopiare tutti i files e caricarli sul tuo hosting.
Io credo però che questo genere di backup serva esclusivamente o per piccolissimi siti oppure per recuperare pagine e contenuti che si reputavano persi.
silvio galati
Gennaio 6, 2022 at 10:56 pmbuonasera Giulio, con il prompt dei comandi Ruby, ho importato dapprima la libreria di wayback machine.. e po ho inserito il link del sito trovato. ma la risposta sul prompt, che non trova file.. forse perche’ il sito non è su wayback… ma invece è li! da cosa puo’ dipendere gentilmente?
Getting snapshot pages. found 0 snaphots to consider.
No files to download.
Possible reasons:
* Site is not in Wayback Machine Archive.