Pobieram dane z Twittera za pomocą narzędzia Python i zrzucam je w formacie JSON na mój dysk. Zauważyłem niezamierzone ucieczki całego ciągu danych dla tweeta ujętego w podwójne cudzysłowy. Ponadto wszystkie podwójne cudzysłowy rzeczywistego formatowania JSON są poprzedzane ukośnikiem odwrotnym.
Wyglądają tak:
„{\" created_at \ ": \" pt 8 sierpnia 11:04:40 + 0000 2014 \ ", \" id \ ": 497699913925292032,
Jak tego uniknąć? Powinno być:
{"created_at": "Fri 08 sierpnia 11:04:40 + 0000 2014" .....
Mój kod wyprowadzania plików wygląda następująco:
with io.open('data'+self.timestamp+'.txt', 'a', encoding='utf-8') as f:
f.write(unicode(json.dumps(data, ensure_ascii=False)))
f.write(unicode('\n'))
Niezamierzone zmiany znaczenia powodują problemy podczas wczytywania pliku JSON w późniejszym etapie przetwarzania.