Ostatnio widziałem, że scribd bardzo utrudnia użytkownikom (użytkownikom darmowym) przeglądanie dokumentu przechowywanego na ich stronie. Nie ma możliwości wyszukiwania w dokumencie, nie mówiąc już o możliwości jego pobrania.
Za pomocą javascript ładują strony na żądanie w przeglądarce, więc funkcja „zapisz jako” przeglądarki niewiele pomaga.
Ku mojemu zdziwieniu zobaczyłem, że nawet kopiowanie / wklejanie tekstu kopiuje bełkot do schowka! Aby sprawdzić, co było nie tak, wyłączyłem JavaScript w przeglądarce, a następnie ponownie załadowałem ten sam dokument. Voila, widziałem bełkot. Wygląda więc na to, że javascript ze skryptu w jakiś sposób dekoduje bełkot, a następnie wyświetla go w przeglądarce.
Teraz moje pytanie brzmi: nawet po włączeniu javascript, a tekst jest poprawnie renderowany w przeglądarce, jeśli przejdę do obiektów DOM odpowiadających zaznaczonemu tekstowi, nadal widzę bełkotliwy tekst.
Więc teraz jestem zdezorientowany. Tekst jest wyświetlany użytkownikowi, ale obiekty DOM nadal zawierają bełkot. Pytanie brzmi: jakiego rodzaju haczyki / kod javascript używa strona, aby zachować bełkot w obiektach DOM i nadal renderować zdekodowany tekst?
Czy mogę uzyskać dostęp do zdekodowanego tekstu? Moim zamiarem nie jest inżynieria wsteczna algorytmu do dekodowania, ale zlokalizowanie miejsca przechowywania dekodowanego tekstu?
Przykładowy dokument to:
Zobacz, co się stanie, gdy włączysz / wyłączysz Javascript!