淘先锋技术网

首页 1 2 3 4 5 6 7
手头有一批文本文件要导入数据库,但是文件的编码格式多种多样,所以要先进行下转码,从网上找到的方法基本上都是用
chardet.detect()方法进行文件的编码识别,然后再进行对应的转换。于是写了一下的方法:
def standardized_file_encode(path):
    with open(path, "rb") as f:
        data = f.read()
    res = chardet.detect(data)
    with open(os.path.join(path), "w", encoding="utf-8") as file:
        line = str(data, encoding = res["encoding"])
        file.write(line)
这个方法,大部分文件都能够正常转换,但个别文件会报这样的错误:
UnicodeDecodeError: 'gb2312' codec can't decode byte 0x84 in position 1869: illegal multibyte sequence

定位到文件中的文字,发现某个文字去掉后就可以转成功了。查了大半天原因,发现gb2312是一个比较小的汉字编码字符集,而GBK则是他的扩展,于是想到是不是这个文件的编码是gbk而不是gb2312,反正gbk是父集,用它去解肯定不会有错,于是方法改为修改如下:

def standardized_file_encode(path):
    with open(path, "rb") as f:
        data = f.read()
    res = chardet.detect(data)
    #gb2312编码的,同一个用gbk编码解析
    if res["encoding"] == "GB2312":
        res["encoding"] = "GBK"
    with open(os.path.join(path), "w", encoding="utf-8") as file:
        line = str(data, encoding = res["encoding"])
        file.write(line)

重新运行,所有文件都顺利转换了。

但是对chardet.detect()方法不怎么信任了,不知道还有没有其他方法可以读取到文件的编码格式,先写下来备忘吧