博客
关于我
[整理] python统计词频
阅读量:434 次
发布时间:2019-03-06

本文共 1085 字,大约阅读时间需要 3 分钟。

简单的数据词频统计方法

在实际开发中,我们常需要对文本数据进行词频统计,这可以帮助我们快速了解文本中各个关键词的出现频率。本文将介绍两种常见的词频统计方法:一种适用于中文文本,另一种适用于英文文本。

中文词频统计

以下是实现中文词频统计的完整代码示例:

import stringtext = "http request highclient springboot request"data = text.lower().split()words = {}for word in data:    if word not in words:        words[word] = 1    else:        words[word] += 1result = sorted(words.items(), key=lambda x: x[1], reverse=True)print(result)

运行该代码,可得以下结果:

[('springboot', 1), ('request', 2), ('http', 1), ('highclient', 1)]

英文词频统计

以下是实现英文词频统计的完整代码示例,基于瓦登尔湖这本书籍:

import stringpath = 'D:/python3/Walden.txt'with open(path, 'r', encoding='utf-8') as text:    words = [raw_word.strip(string.punctuation).lower() for raw_word in text.read().split()]counts = {}for word in words:    counts[word] = counts.get(word, 0) + 1sorted_words = sorted(counts.items(), key=lambda x: x[1], reverse=True)for word, count in sorted_words:    print(f"{word} -- {count} times")

运行该代码,可得以下结果:

highclient -- 1 timethe -- 21 timesand -- 16 timesto -- 16 timesis -- 14 times... (以下其他词频统计结果)

以上代码和分析方法可以帮助我们快速统计不同语言文本中的关键词频率。在实际应用中,可以根据需要调整统计方式和排序规则。

转载地址:http://phcuz.baihongyu.com/

你可能感兴趣的文章
Objective-C实现Exceeding words超词(差距是ascii码的距离) 算法(附完整源码)
查看>>
Objective-C实现exchange sort交换排序算法(附完整源码)
查看>>
Objective-C实现ExponentialSearch指数搜索算法(附完整源码)
查看>>
Objective-C实现extended euclidean algorithm扩展欧几里得算法(附完整源码)
查看>>
Objective-C实现ExtendedEuclidean扩展欧几里德GCD算法(附完整源码)
查看>>
Objective-C实现Factorial digit sum阶乘数字和算法(附完整源码)
查看>>
Objective-C实现factorial iterative阶乘迭代算法(附完整源码)
查看>>
Objective-C实现factorial recursive阶乘递归算法(附完整源码)
查看>>
Objective-C实现factorial阶乘算法(附完整源码)
查看>>
Objective-C实现Fast Powering算法(附完整源码)
查看>>
Objective-C实现fenwick tree芬威克树算法(附完整源码)
查看>>
Objective-C实现FenwickTree芬威克树算法(附完整源码)
查看>>
Objective-C实现fft2函数功能(附完整源码)
查看>>
Objective-C实现FFT快速傅立叶变换算法(附完整源码)
查看>>
Objective-C实现FFT算法(附完整源码)
查看>>
Objective-C实现fibonacci search斐波那契查找算法(附完整源码)
查看>>
Objective-C实现fibonacci斐波那契算法(附完整源码)
查看>>
Objective-C实现FigurateNumber垛积数算法(附完整源码)
查看>>
Objective-C实现first come first served先到先得算法(附完整源码)
查看>>
Objective-C实现Gale-Shapley盖尔-沙普利算法(附完整源码)
查看>>