python中的代码编码格式转换问题

  刚来这个公司,熟悉了环境,老大就开始让我做一个迁移、修改代码的工作,我想说的是,这种工作真没劲~~,看别人的代码、改别人的代码、这里改个变量、那里改个文件名······,都是些没技术含量、很繁琐的事情,不过通过迁移代码顺便熟悉下环境也好。扯了这么多,说说今天的主题吧——代码编码格式改变,由于某些原因,需要将代码从a机房迁移到b机房,这两个之间不能互相访问,但是历史原因导致a机房的代码全是utf8编码的,b机房要求是gbk编码,看看这个怎么解决。

编码问题

  先说说为什么会有编码问题,就拿上面那个例子来说,b机房这边数据库全是gbk编码的,因此从数据库中取出来的数据都是gbk的,从数据库中取出来的数据是gbk编码的,要在展示的时候不乱码,在不对数据库取出的数据转换的情况下,就需要发送header的时候设置编码为gbk,输出的文件(html、tpl等)都必须是gbk的,看看下面这个图会更清楚点:

    db(gbk) => php等(编码格式不限但如果代码文件中有汉字,文件就要是gbk编码或者在汉字输出的时候转化为gbk) => header(gbk) => html、tpl(gbk)

  或者还有一种方式只在出库的时候在代码中将utf8转化为gbk,总的来说utf8还是更流行点,问题更少点

    db(gbk) => php等(utf8,并将从数据库取出的数据转化为utf8) => header(utf8) => html、tpl(utf8)

  只要按照上面这两种规范编码格式,就不会出现乱码情况,起码我测试的第一种方式是没问题的,所以我猜第二种也ok,好了,现在就来写一个转换文件编码格式的小脚本:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#filename:changeencode.py
import os
import sys
def changeencode(file,fromencode,toencode):
try:
f=open(file)
s=f.read()
f.close()
u=s.decode(fromencode)
s=u.encode(toencode)
f=open(file,”w”);
f.write(s)
return 0;
except:
return -1;
def do(dirname,fromencode,toencode):
for root,dirs,files in os.walk(dirname):
for _file in files:
_file=os.path.join(root,_file)
if(changeencode(_file,fromencode,toencode)!=0):
print “[转换失败:]”+_file
else:
print “[成功:]”+_file
def checkparam(dirname,fromencode,toencode):
encode=[“utf-8″,”gbk”,”gbk”,”utf-8″]
if(not fromencode in encode or not toencode in encode):
return 2
if(fromencode==toencode):
return 3
if(not os.path.isdir(dirname)):
return 1
return 0
if __name__==”__main__”:
error={1:”第一个参数不是一个有效的文件夹”,3:”源编码和目标编码相同”,2:”您要转化的编码不再范围之内:utf-8,gbk”}
dirname=sys.argv[1]
fromencode=sys.argv[2]
toencode=sys.argv[3]
ret=checkparam(dirname,fromencode,toencode)
if(ret!=0):
print error[ret]
else:
do(dirname,fromencode,toencode)

  脚本很简单,使用也很简单

代码如下:

  ./changeencode.py target_dir fromencode toencode

  这里要注意下,几种常见编码的关系:

  us-ascii编码是utf-8编码的一个子集,这个是从stackoverflow上得到的,原文如下ascii is a subset of utf-8, so all ascii files are already utf-8 encoded,

我试了下确实是的,在不加汉字的时候显示编码为us-ascii,加了汉字之后,变为utf-8。

  还有就是asni编码格式,这代表是本地编码格式,比如说在简体中文操作系统下,asni编码就代表gbk编码,这点还需要注意

  还有一点就是一个在linux下查看文件编码格式的命令是:

file -i *

  可以看到文件的编码格式。

  当然了,上面的可能有些文件中有特殊字符,处理的时候会失败,但一般程序文件是没有问题的。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Posted in 未分类

发表评论