python找出文件中使用率最高的汉字实例详解

本文实例讲述了python找出文件中使用率最高的汉字的方法。分享给大家供大家参考。具体分析如下:

这是我初学python时写的,为了简便,我并没在排序完后再去掉非中文字符,稍微会影响性能(大约增加了25%的时间)。

# -*- coding: gbk -*-
import codecs
from time import time
from operator import itemgetter
def top_words(filename, size=10, encoding=’gbk’):
count = {}
for line in codecs.open(filename, ‘r’, encoding):
for word in line:
if u’\u4e00′

Posted in 未分类

发表评论