Python中读取.gz
文件中的UTF-8编码字符串可以分别在Python 2和Python 3中使用不同的方法。下面分别给出示例代码。
参考文档:Python(Python2、Python3)读取gzip(.gz)文件中utf8(utf-8)编码字符串-CJavaPy
1、Python 3
在Python 3中,你可以使用内置的gzip
模块来读取gzip压缩的文件。gzip.open()
函数可以直接以文本模式打开gzip文件,并指定编码。这是一个比较简洁和现代的方法。
import gzip
# 打开gzip文件,读取字节数据后解码成utf-8格式的字符串
with gzip.open('example.gz', 'rb') as f:
content = f.read().decode('utf-8')
print(content)
2、Python 2
在Python 2中,处理utf-8编码稍微复杂一些,因为gzip.open()
默认以二进制模式打开文件,返回的是字节字符串。需要手动解码成Unicode字符串。
import gzip
# 打开gzip文件,读取字节数据后解码成utf-8格式的字符串
with gzip.open('example.gz', 'rb') as f:
content = f.read().decode('utf-8')
print(content)
参考文档:Python(Python2、Python3)读取gzip(.gz)文件中utf8(utf-8)编码字符串-CJavaPy