Różnica między open i codecs.open w Pythonie

Question 1

Istnieją dwa sposoby otwarcia pliku tekstowego w Pythonie:

f = open(filename)

I

import codecs
f = codecs.open(filename, encoding="utf-8")

Kiedy codecs.openlepiej open?

Question 2

Od Pythona 2.6, dobrą praktyką jest używanie io.open(), które również przyjmuje encodingargument, tak jak teraz przestarzały codecs.open(). W Pythonie 3 io.openjest aliasem dla open()wbudowanego. io.open()Działa więc w Pythonie 2.6 i wszystkich późniejszych wersjach, w tym w Pythonie 3.4. Zobacz dokumentację: http://docs.python.org/3.4/library/io.html

A teraz, jeśli chodzi o pierwotne pytanie: podczas czytania tekstu (w tym „zwykłego tekstu”, HTML, XML i JSON) w Pythonie 2 należy zawsze używać io.open()z jawnym kodowaniem lub open()z jawnym kodowaniem w Pythonie 3. Czyniąc to, uzyskasz poprawny wynik zdekodować Unicode lub otrzymać błąd od razu, co znacznie ułatwia debugowanie.

Czysty ASCII „zwykły tekst” to mit z odległej przeszłości. Prawidłowy tekst w języku angielskim używa cudzysłowów, myślników, punktorów, € (znaki euro), a nawet dierezy (¨). Nie bądź naiwny! (I nie zapominajmy o wzorcu projektowym elewacji!)

Ponieważ czysty ASCII nie jest prawdziwą opcją, open()bez jawnego kodowania jest przydatny tylko do odczytu plików binarnych .

Question 3

Osobiście zawsze używam, codecs.openchyba że istnieje jasno określona potrzeba użycia open**. Powodem jest to, że tyle razy zostałem ugryziony przez wejście utf-8, które wkradło się do moich programów. „Och, po prostu wiem, że to zawsze będzie ascii” to założenie, które często się łamie.

Zakładanie „utf-8” jako domyślnego kodowania wydaje się być bezpieczniejszym domyślnym wyborem z mojego doświadczenia, ponieważ ASCII można traktować jako UTF-8, ale odwrotność nie jest prawdą. A w tych przypadkach, kiedy naprawdę wiem, że dane wejściowe to ASCII, nadal robię to, codecs.openponieważ mocno wierzę w „wyraźne jest lepsze niż ukryte” .

** - w Pythonie 2.x, ponieważ openzastępuje komentarz do stanów pytania w Pythonie 3codecs.open

Question 4

W Pythonie 2 istnieją ciągi znaków Unicode i bajty. Jeśli używasz tylko bytestringów, możesz czytać / zapisywać do pliku otwartego w open()porządku. W końcu łańcuchy to tylko bajty.

Problem pojawia się, gdy, powiedzmy, masz ciąg znaków Unicode i wykonujesz następujące czynności:

>>> example = u'Μου αρέσει Ελληνικά'
>>> open('sample.txt', 'w').write(example)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)

Więc tutaj oczywiście albo jawnie kodujesz swój ciąg znaków Unicode w utf-8, albo codecs.openrobisz to za siebie w sposób przejrzysty.

Jeśli używasz tylko bajtestów, nie ma problemów:

>>> example = 'Μου αρέσει Ελληνικά'
>>> open('sample.txt', 'w').write(example)
>>>

Wiąże się to bardziej niż to, ponieważ kiedy łączysz Unicode i testujesz łańcuch z +operatorem, otrzymujesz ciąg znaków Unicode. Łatwo się przez to ugryźć.

Również codecs.opennie lubi bytestrings ze znakami spoza ASCII są przekazywane w:

codecs.open('test', 'w', encoding='utf-8').write('Μου αρέσει')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/python2.7/codecs.py", line 691, in write
    return self.writer.write(data)
  File "/usr/lib/python2.7/codecs.py", line 351, in write
    data, consumed = self.encode(object, self.errors)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xce in position 0: ordinal not in range(128)

Porada dotycząca ciągów znaków wejściowych / wyjściowych jest zwykle „konwertowana do formatu Unicode tak wcześnie, jak to możliwe i z powrotem do bajtestów tak późno, jak to możliwe”. Użycie codecs.openpozwala bardzo łatwo zrobić to drugie.

Po prostu uważaj, aby nadawać mu ciągi znaków Unicode, a nie bajty, które mogą zawierać znaki spoza ASCII.

Question 5

Gdy potrzebujesz otworzyć plik, który ma określone kodowanie, użyjesz codecsmodułu.

Question 6

codecs.openPrzypuszczam, że to pozostałość po Python 2czasach, kiedy wbudowany otwarty miał znacznie prostszy interfejs i mniej możliwości. W Pythonie 2 openfunkcja wbudowana nie pobiera argumentu kodowania, więc jeśli chcesz użyć czegoś innego niż tryb binarny lub domyślne kodowanie, powinno zostać użyte codecs.open.

W Python 2.6roku moduł io przyszedł z pomocą, aby nieco uprościć sprawę. Według oficjalnej dokumentacji

New in version 2.6.

The io module provides the Python interfaces to stream handling.
Under Python 2.x, this is proposed as an alternative to the
built-in file object, but in Python 3.x it is the default
interface to access files and streams.

Powiedziawszy to, jedyne zastosowanie, jakie przychodzi mi do głowy codecs.openw obecnym scenariuszu, to kompatybilność wsteczna. We wszystkich innych scenariuszach (chyba że używasz Pythona <2.6) lepiej jest używać io.open. Również w Python 3.x io.openjest to samo cobuilt-in open

Uwaga:

Istnieje również różnica składniowa między codecs.openi io.open.

codecs.open:

open(filename, mode='rb', encoding=None, errors='strict', buffering=1)

io.open:

open(file, mode='r', buffering=-1, encoding=None,
     errors=None, newline=None, closefd=True, opener=None)

Question 7

Jeśli chcesz załadować plik binarny, użyj f = io.open(filename, 'b').
Aby otworzyć plik tekstowy, zawsze używaj f = io.open(filename, encoding='utf-8')z jawnym kodowaniem.

W Pythonie 3 jednak opennie to samo, co io.openi może być stosowany zamiast.

Uwaga: codecs.open planuje się stać przestarzałe i zastąpione przez io.openpo wprowadzeniu w Pythonie 2.6 . Użyłbym go tylko wtedy, gdy kod musi być zgodny z wcześniejszymi wersjami Pythona. Aby uzyskać więcej informacji na temat kodeków i Unicode w Pythonie, zobacz Unicode HOWTO .

Question 8

Kiedy pracujesz z plikami tekstowymi i potrzebujesz przezroczystego kodowania i dekodowania do obiektów Unicode.

Question 9

Miałem okazję otworzyć plik .asm i go przetworzyć.

#https://docs.python.org/3/library/codecs.html#codecs.ignore_errors
#https://docs.python.org/3/library/codecs.html#codecs.Codec.encode

with codecs.open(file, encoding='cp1252', errors ='replace') as file:

Bez większego problemu jestem w stanie odczytać cały plik, jakieś sugestie?