Odzyskiwanie utraconej witryny bez kopii zapasowej?


262

Niestety nasz dostawca hostingu doświadczył 100% utraty danych, więc straciłem całą zawartość dwóch hostowanych witryn blogowych:

(Tak, tak, absolutnie powinienem był wykonać pełne kopie zapasowe poza siedzibą. Niestety, wszystkie moje kopie zapasowe były na samym serwerze. Więc zachowaj wykład; masz 100% absolutną rację, ale w tej chwili mi to nie pomaga. skoncentruj się na pytaniu tutaj!)

Zaczynam powolny, bolesny proces odzyskiwania strony z pamięci podręcznych przeszukiwaczy stron internetowych.

Istnieje kilka zautomatyzowanych narzędzi do odzyskiwania strony z pamięci podręcznych pająków internetowych (Yahoo, Bing, Google itp.), Takich jak Warrick , ale miałem złe wyniki, używając tego:

  • Mój adres IP został szybko zablokowany w Google za używanie go
  • Dostaję wiele błędów 500 i 503 i „czekam 5 minut…”
  • Ostatecznie mogę ręcznie odzyskać treść tekstu

Miałem dużo więcej szczęścia, korzystając z listy wszystkich postów na blogu, przechodząc do pamięci podręcznej Google i zapisując każdy plik jako HTML. Chociaż istnieje wiele blogach, nie ma to wiele, a ja figura ja zasługują samobiczowania za nie posiadanie strategii lepiej kopii zapasowej. W każdym razie ważne jest to, że miałem szczęście uzyskać tekst posta na blogu w ten sposób i zdecydowanie jestem w stanie wydobyć tekst stron internetowych z pamięci podręcznej Internetu. Na podstawie tego, co zrobiłem do tej pory, jestem pewien, że mogę odzyskać cały utracony tekst i komentarze na blogu .

Jednak obrazy, które towarzyszą każdemu postowi na blogu, okazują się… trudniejsze.

Czy są jakieś ogólne wskazówki dotyczące odzyskiwania stron internetowych z pamięci podręcznej Internetu, aw szczególności miejsca odzyskiwania zarchiwizowanych obrazów ze stron internetowych ?

(I znowu, proszę, żadnych wykładów zapasowych. Masz całkowitą, całkowitą, całkowitą rację! Ale racja nie rozwiązuje mojego bezpośredniego problemu… Chyba że masz maszynę czasu…)


96
Kiedy ktoś taki jak Jeff Atwood może stracić dwie całe strony za jednym zamachem ... Cóż.

240
@Phoshi: Jeff ma kilka dobrych artykułów na temat Coding Horror na temat tworzenia kopii zapasowych. Powinieneś dać im szybki odczyt.

34
joshhunt wygrywa jeden (1) internet. Ta oferta nie może być łączona z innymi ofertami, wymieniana ani zastępowana. Brak kontroli deszczu.
Adam Davis,

28
Długości, na które niektórzy ludzie pójdą, aby zdobyć reputację na SU ...

26
Nie nazywaj tego, co zrobiłeś, „kopiami zapasowymi” - jeśli te pliki znajdują się na tym samym serwerze, w żaden sposób nie są „kopiami zapasowymi”.

Odpowiedzi:


220

Oto moje dzikie pchnięcie nożem w ciemność: skonfiguruj serwer WWW, aby zwracał 304 dla każdego żądania obrazu, a następnie przeprowadź odzyskiwanie źródła przez publikowanie listy adresów URL i proszenie w podcastie, aby wszyscy czytelnicy załadowali każdy adres URL i zebrali jakiekolwiek obrazy ładowane z lokalnych pamięci podręcznych. (Może to działać tylko po przywróceniu samych stron HTML wraz z <img ...>tagami, co wydaje się sugerować, że twoje pytanie będzie w stanie to zrobić).

Jest to w zasadzie fantazyjny sposób powiedzenia „pobierz z pamięci podręcznej przeglądarki”. Masz wielu czytelników i słuchaczy podcastów, dzięki czemu możesz skutecznie zmobilizować dużą liczbę osób, które prawdopodobnie ostatnio przeglądały Twoją witrynę. Jednak ręczne wyszukiwanie i wyodrębnianie obrazów z pamięci podręcznych różnych przeglądarek internetowych jest trudne, a całe podejście działa najlepiej, jeśli jest wystarczająco łatwe, aby wiele osób wypróbowało je i odniosło sukces. Zatem podejście 304. Wszystko, czego wymaga czytelnik, to kliknięcie szeregu linków i przeciągnięcie obrazów załadowanych w przeglądarce internetowej (lub kliknięcie prawym przyciskiem myszy i zapisanie jako itp.), A następnie przesłanie ich pocztą e-mail lub przesłanie do centralna lokalizacja, którą skonfigurowałeś lub cokolwiek innego Główną wadą tego podejścia jest to, że pamięci podręczne przeglądarki internetowej nie cofają się tak daleko. Ale wystarczy tylko jeden czytelnik, który w ciągu ostatnich kilku dni załadował post z 2006 roku, aby uratować nawet bardzo stary obraz. Przy odpowiednio dużej grupie odbiorców wszystko jest możliwe.


52
+1 za najbardziej kreatywne podejście. Może faktycznie działać, ponieważ CH ma wielu czytelników.

16
wdrożony tutaj? diovo.com/2009/12/…
Jeff Atwood

3
Myślę, że możesz zaindeksować swoje pliki statyczne w celu umieszczenia znaczników obrazu i skopiować je wszystkie na jedną wielką stronę obrazów, zamiast zmuszać wszystkich do klikania każdego linku. Implementacja diovo.com wygląda bardzo imponująco, mam nadzieję, że Ci się uda.

2
WOW, to jest nikczemne czarodziejskie gówno I <3
Ahmad Alfy

4
W rzeczywistości powinieneś być w stanie odzyskać obrazy za pomocą canvasi wysłać je do domu przez AJAX.
Tomáš Zato

65

Niektórzy z nas podążają za tobą za pomocą czytnika RSS i nie usuwają pamięci podręcznej. Mam posty na blogu, które wydają się pochodzić z 2006 roku. Z tego, co widzę, nie ma zdjęć, ale mogą być lepsze niż to, co robisz teraz.


+1 zdecydowanie. Czytnik Google nie, ale założę się, że byłby to komputer stacjonarny.

2
Możesz także poprosić ludzi o sprawdzenie pamięci podręcznej przeglądarki. Ci, którzy oglądają styl retro Coding Horror, mogą buforować niektóre obrazy.

Mam posty na blogu w 2005 roku w GReaderze, ale niestety nie mają zdjęć i nie pozwolą mi po prostu wyeksportować ich jako serii stron ... Mogę ci je jednak wysłać pocztą e-mail, Jeff. ..
Glen Solsberry,

Tak, sugerowano „wyślę ci to, co mam, jeśli o to poprosisz”. w mojej odpowiedzi również.

3
Zbyt wielu czytelników RSS zakłada, że ​​obrazy nigdy nie umrą. Wiem, że moje :(

62

(1) Wyodrębnij listę nazw plików wszystkich brakujących obrazów z kopii zapasowych HTML. Pozostanie Ci coś takiego:

  • stay-puft-marshmallow-man.jpg
  • internet-properties-dialog.png
  • yahoo-homepage-small.png
  • password-show-animated.gif
  • tivo2.jpg
  • michael-abrash-graphic-program

(2) Przeprowadź wyszukiwanie grafiki Google dla tych nazw plików. Wygląda na to, że WIELU z nich zostało „odzwierciedlonych” przez innych blogerów i jest gotowych do wzięcia, ponieważ mają tę samą nazwę pliku .

(3) Możesz to zrobić w sposób zautomatyzowany, jeśli okaże się skuteczny, powiedzmy, dla ponad 10 zdjęć.


Byłoby bardzo ironiczne, gdyby rzeczywiście odzyskał takie zdjęcia.
Hashim

51

Przechodząc do wyszukiwania grafiki Google i wpisując site:codinghorror.com, możesz przynajmniej znaleźć miniatury wszystkich swoich zdjęć. Nie, niekoniecznie pomaga, ale daje punkt wyjścia do odzyskania tysięcy zdjęć.

Obrazy z kodowaniem

Wygląda na to, że Google przechowuje w niektórych przypadkach większą miniaturę :

Google vs. Bing

Google jest po lewej, Bing po prawej.


2
tak, najgorszy przypadek, będziemy musieli przeskalować miniatury z Google. Słyszę, że Bing przechowuje większe miniatury?
Jeff Atwood,

Nie wiem; Nie jestem typem faceta. Nie wiem nawet, czy wykonują wyszukiwanie grafiki tak jak Google. Dowiem się i zaktualizuję wspomniany post.
George Stocker,

18
Nie wiem czy to ty. Ale Imageshack wydaje się mieć wiele z twoich blogów. profile.imageshack.us/user/codinghorror
Nick Berardi

Wygląda na to, że mają 456 zdjęć w pełnym rozmiarze. To może być najlepszy zakład na odzyskanie wszystkiego. Może nawet zapewnią ci zrzut.
Nick Berardi,

28
Użyj miniaturek Google na początek, a następnie użyj tineye.com, aby sprawdzić, czy ktoś hostuje kopię.
sep332

40

Przykro nam, że słyszę o blogach. Nie będę wykładał. Ale znalazłem coś, co wydaje się być twoimi obrazami na Imageshack. Czy są naprawdę twoje, czy ktoś przechowywał ich kopię?

http://profile.imageshack.us/user/codinghorror

Wygląda na to, że mają 456 zdjęć w pełnym rozmiarze. To może być najlepszy zakład na odzyskanie wszystkiego. Może nawet zapewnią ci zrzut.


37

Jeff, coś tu dla ciebie napisałem

Krótko mówiąc, proponuję:

  1. Skonfiguruj serwer WWW, aby zwracał 304 dla każdego żądania obrazu. 304 oznacza, że ​​plik nie jest modyfikowany, a to oznacza, że ​​przeglądarka pobierze plik z pamięci podręcznej, jeśli jest tam obecny. (kredyt: ta odpowiedź SuperUser )

  2. Na każdej stronie w witrynie dodaj mały skrypt, aby przechwycić dane obrazu i wysłać je na serwer.

  3. Zapisz dane obrazu na serwerze.

  4. Voila!

Możesz pobrać skrypty z podanego linku.


Odpowiedź superużytkownika nie jest powiązana.
Nathaniel

@Nathaniel: NAPRAWIONO
alexanderpas

28

Spróbuj tego zapytania na maszynie Wayback :

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

Otrzymasz wszystkie obrazy z codinghorror.com zarchiwizowane przez archive.org. Zwraca 3878 obrazów, z których niektóre są duplikatami. To nie będzie pełne, ale dobry początek.

W przypadku pozostałych zdjęć możesz użyć miniaturek z pamięci podręcznej wyszukiwarki, a następnie wykonać przegląd wstecz, używając ich na stronie http://www.tineye.com/ . Dajesz mu obraz miniatury, a on daje podgląd i wskaźnik do ściśle pasujących obrazów znalezionych w sieci.


1
zwraca teraz 404?
rogerdpack,

Zrobiłem narzędzie do automatycznego pobierania kopii zapasowej z Wayback Machine: github.com/hartator/wayback-machine-downloader
Hartator

26

+1 na ddzalecenie, jeśli (1) surowy dysk jest gdzieś dostępny; oraz (2) obrazy były prostymi plikami. Następnie możesz użyć narzędzia „rzeźbienia danych”, aby (na przykład) wyciągnąć wszystkie wiarygodne zakresy, które wydają się być JPG / PNG / GIF. Odzyskałem ponad 95% zdjęć z iPhone'a, który został w ten sposób wyczyszczony.

Można do tego wykorzystać narzędzia „open source” i „skalpel” będący jego następcą:

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/


2
Photorec może być także przydatny po otrzymaniu obrazów dd.

przede wszystkim jest dostępne za pośrednictwem yum na Fedorze

26

Na szczęście przyszłe pokolenia będą w porządku.

Nawet przy niewielkiej części tej dużej skały naukowcy / lingwiści wiele się zorientowali.

Kamień z Rosetty

Jeśli brakuje kilku zdjęć, pozostaw to komuś, by wymyślił za kilka tysięcy lat.

Mam nadzieję, że trochę się śmiejesz. :)


5
Ok, chichotałeś przynajmniej ode mnie ;-)

21

Zawsze możesz spróbować także archive.org. Użyj maszyny powrotnej. Użyłem tego do odzyskiwania zdjęć z moich stron internetowych.


3
Wydaje się, że nie ma dużej pamięci podręcznej dla CodingHorror. Widzę jednak obrazy do blog.stackoverflow.

przebudowałem stronę internetową przy użyciu internetowego urządzenia zwrotnego, ale próbowałem kilka razy i naprawdę nie archiwizuje zbyt wielu witryn ...
djangofan,

Wygląda na to, że pochodzi z 2004 roku tutaj web.archive.org/web * / codinghorror.com

Dzięki Bogu, że nie ma pliku robots.txt, prawda? :)
Synetech

14

Tak więc, absolutnie najgorszy przypadek, nic nie możesz odzyskać. Cholera.

Spróbuj złapać zminimalizowane google i przeszukać je przez TinEye , wyszukiwarkę wstecznego obrazu. Mamy nadzieję, że powinien pobrać wszelkie duplikaty lub rehosty utworzone przez ludzi.


14

To długa szansa, ale można rozważyć:

  • Publikowanie dokładnej listy zdjęć, których brakuje
  • pozyskiwanie przez tłum procesu pobierania przez pamięć podręczną wszystkich czytelników.

Na przykład zobacz Nirsoft Mozilla Cache Viewer :

alternatywny tekst
(źródło: nirsoft.net )

Może szybko wykopać dowolne zdjęcie „blog.stackoverflow.com”, które wciąż można mieć za pomocą prostej linii poleceń:

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

Uwaga: mają tę samą przeglądarkę pamięci podręcznej dla Chrome .

alternatywny tekst
(źródło: nirsoft.net )

(Muszę mieć 15 dni na blog.stackoverflow.com zdjęć)

I Internet Explorer lub Opera .


Następnie zaktualizuj listę publiczną, aby odzwierciedlić to, co czytelnicy zgłaszają znalezieniem w swojej pamięci podręcznej.


12

W przeszłości korzystałem z http://www.archive.org/, aby pobierać buforowane obrazy. To rodzaj trafienia lub chybienia, ale zadziałało dla mnie.
Ponadto, gdy próbuję odzyskać zdjęcia stockowe, które wykorzystałem na starej stronie, www.tineye.com jest świetny, gdy mam tylko miniatury i potrzebuję obrazów w pełnym rozmiarze.

Mam nadzieję, że to Ci pomoże. Powodzenia.


Kilka minut temu przejrzałem Archive.org pod kątem obrazów codinghorror.com i kilka klikniętych postów nie wyświetlało się.
George Stocker,

Archive.org publikuje dane kilka miesięcy po ich pierwszej indeksowaniu.
Christian

10

Prawdopodobnie nie jest to najłatwiejsze lub najbardziej niezawodne rozwiązanie, ale usługi takie jak Evernote zwykle zapisują zarówno tekst, jak i obrazy, gdy są one przechowywane w aplikacji - być może niektórzy pomocni czytelnicy, którzy zapisali twoje artykuły, mogliby zapisać obrazy i odesłać je z powrotem do ciebie ?


10

Miałem wspaniałe doświadczenia z archive.org . Nawet jeśli nie możesz wyodrębnić wszystkich swoich postów na blogu z witryny, przechowują one okresowe migawki:

alternatywny tekst

W ten sposób możesz sprawdzić każdą stronę i zobaczyć posty na blogu. Dzięki nazwom wszystkich postów możesz je łatwo znaleźć w pamięci podręcznej Google, jeśli archive.org go nie ma. Archiwum próbuje zachować obrazy, pamięć podręczna Google będzie miała obrazy, a ostatnio nie opróżniłem pamięci podręcznej, więc mogę pomóc Ci z najnowszymi wpisami na blogu :)


Próbowałem uzyskać dane ze strony internetowej firmy, w której kiedyś pracowałem. To było dobre dla tekstu, a mniej dla obrazów. Ale YMMV
ChrisF

Uważam, że pamięć podręczna Google nie przechowuje obrazów.
Nathaniel,


8

Sugestia na przyszłość: korzystam z Windows Live Writer do blogowania i zapisuję lokalne kopie postów na moim komputerze, a także publikuję je na blogu.


Ponadto korzystanie z Windows Live Writer to zdrowy rozsądek.

7

Około pięć lat temu wczesne wcielenie zewnętrznego dysku twardego, na którym przechowywałem wszystkie moje cyfrowe zdjęcia, zawiodło. Zrobiłem obraz dysku twardego za pomocą ddi napisałem podstawowe narzędzie do odzyskiwania wszystkiego, co wyglądało jak obraz JPEG. Wyciągnąłem z tego większość moich zdjęć.

Pytanie brzmi: czy można uzyskać kopię obrazu dysku maszyny wirtualnej, w której przechowywane są obrazy?



7

Sugeruję połączenie archive.org i anonimizatora żądania, takiego jak [Tor] [2]. Sugeruję użycie anonimizatora, ponieważ w ten sposób każde twoje żądanie będzie miało losowy adres IP i lokalizację, dzięki czemu będziesz mógł uniknąć zbanowania przez archive.org (podobnie jak Google) za niezwykle dużą liczbę żądań.

Powodzenia, na tym blogu jest wiele klejnotów.


Biorąc pod uwagę, że Jeff chce przekazać darowiznę na Archive.org, nadużywanie anonimizatora może nie być absolutnie niedopuszczalne. Ale nadal chcę cię za to kopnąć. : - |

6

Maszyna do powrotu będzie miała trochę. Pamięć podręczna Google i podobne pamięci podręczne będą miały trochę.

Jedną z najbardziej skutecznych rzeczy, jaką możesz zrobić, jest wysłanie pocztą e-mail oryginalnych plakatów z prośbą o pomoc.

Mam kilka zaleceń infrastrukturalnych, ponieważ po tym wszystkim wszystko zostało wyczyszczone. Podstawowym problemem nie są kopie zapasowe, brak replikacji witryny i brak inspekcji. Jeśli wyślesz mi wiadomość e-mail na temat zawartości prywatnego pola e-mail, później, gdy w pewnym sensie będziesz na nogach, chętnie omówię z tobą tę sprawę.


6

Jeśli twoje obrazy były przechowywane w zewnętrznej usłudze, takiej jak Flickr lub CDN (jak wspomniano w jednym z podcastów), nadal możesz mieć tam zasoby graficzne.

Niektóre obrazy można znaleźć podczas wyszukiwania w Grafice Google i kliknąć „Znajdź podobne obrazy” , być może są kopie na innych stronach.


5

archive.org czasami ukrywa obrazy. Uzyskaj każdy adres URL ręcznie (lub napisz krótki skrypt) i zapytaj go o to w ten sposób:

string.Format („GET / * / {0}”, nextUri)

Oczywiście przeszukiwanie tego będzie dość uciążliwe.

Mogę mieć trochę w pamięci podręcznej przeglądarki. Jeśli to zrobię, gdzieś je hostuję.


4

Jeśli chcesz spróbować zeskrobać pamięć podręczną użytkowników, możesz ustawić serwer tak, aby odpowiadał 304 Not Modifiedna wszystkie żądania warunkowe GET („If-Modified-Since” lub „If-None-Match”), których przeglądarki używają ponownie zweryfikuj ich buforowany materiał.

Jeśli początkowe buforowanie nagłówków statycznych treści, takich jak obrazy, było dość liberalne - pozwalając na buforowanie rzeczy przez kilka dni lub miesięcy - możesz nadal otrzymywać prośby o ponowne sprawdzenie poprawności. Ustaw plik cookie dla tych żądań i apeluj do tych użytkowników, aby uruchomili skrypt na swojej pamięci podręcznej w celu wyodrębnienia obrazów, które nadal mają.

Uważaj jednak: w momencie, gdy zaczniesz umieszczać dowolne treści tekstowe z wbudowanymi zasobami, które jeszcze nie są dostępne, możesz wyczyścić te wersje z pamięci podręcznej, gdy rewalidatory osiągną 404 sekundy.



4

Ryzykując wskazanie rzeczy oczywistych, spróbuj przeszukać kopie zapasowe własnych obrazów komputera. Wiem, że moja strategia tworzenia kopii zapasowych jest na tyle przypadkowa, że ​​mam wiele kopii wielu plików zawieszonych na dyskach zewnętrznych, nagranych dyskach oraz w plikach zip / tar. Powodzenia!


4

Udało mi się odzyskać te pliki z pamięci podręcznej Safari w systemie Snow Leopard:

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

Jeśli ktoś chce spróbować, napisałem skrypt Pythona, aby wyodrębnić go do ~ / codinghorror / filename, który umieściłem tutaj online .

Mam nadzieję, że to pomoże.


3

Czy miałeś okazję sprawdzić, czy Twój dostawca hostingu w ogóle ma jakąś kopię zapasową (niektóre starsze wersje)?


nie wygląda to dobrze ... ich program do tworzenia kopii zapasowych nie mógł wykonać kopii zapasowej plików dysku twardego maszyny wirtualnej, więc nie ma kopii zapasowych.
Jeff Atwood,

2

Ile warte są te dane? Jeśli jest to warte znacznej kwoty (tysiące dolarów), zastanów się, czy nie poprosić swojego dostawcy hostingu o dysk twardy używany do przechowywania danych na swojej stronie internetowej (w przypadku utraty danych z powodu awarii sprzętu). Następnie możesz przenieść dysk na ontrack lub inną usługę odzyskiwania danych, aby zobaczyć, co możesz z niego wydostać. Negocjowanie może być trudne ze względu na możliwość odzyskania danych innych osób na dysku, ale jeśli naprawdę cię to obchodzi, prawdopodobnie możesz to rozwiązać.


o ile wiem, serwer był maszyną wirtualną.
splattne

1
@splattne mimo to istnieje niezerowa szansa na odzyskanie dużej ilości danych.

Musiałaby to być wysoce wyspecjalizowana usługa.

2

Bardzo przykro mi to słyszeć i jestem bardzo zirytowany dla ciebie, i czasu - chciałem kopię offline kilku twoich postów i wykonałem HTTrack na całej stronie, ale musiałem wyjść (to było kilka tygodni temu) i Zatrzymałem to.

Jeśli host jest w połowie zejścia - i przez fakt, że zgaduję, że jesteś dobrym klientem ... Poprosiłbym ich, aby albo przesłali ci dyski twarde (jak sądzę, powinni używać RAID), albo sami dokonają odzyskiwania.

Chociaż może to nie być szybki proces, zrobiłem to z jednym hostem dla klienta i udało mi się odzyskać całe bazy danych w nienaruszonym stanie (... w zasadzie host próbował uaktualnić panel sterowania, którego używali, i zepsuł się .. ale nic nie zostało zastąpione).

Cokolwiek się stanie - powodzenia od wszystkich fanów na stronach SO!

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.