博客
关于我
[整理] python统计词频
阅读量:434 次
发布时间:2019-03-06

本文共 765 字,大约阅读时间需要 2 分钟。

简单的数据词频统计

import stringtext = "http requset highclient springboot requset"data = text.lower().split()words = {}for word in data:    if word not in words:        words[word] = 1    else:        words[word] = words[word] + 1result = sorted(words.items(), reverse=True)print(result)输出[('springboot', 1), ('requset', 2), ('http', 1), ('highclient', 1)]

英文书词频统计(瓦登尔湖)

import stringpath = 'D:/python3/Walden.txt'with open(path,'r',encoding= 'utf-8') as text:    words = [raw_word.strip(string.punctuation).lower() for raw_word in text.read().split()]words_index = set(words)counts_dict = {index:words.count(index) for index in words_index}for word in sorted(counts_dict,key=lambda x: counts_dict[x],reverse=True):    print('{} -- {} times'.format(word,counts_dict[word]))

转载地址:http://phcuz.baihongyu.com/

你可能感兴趣的文章
MySQL Workbench安装教程以及菜单汉化
查看>>
MySQL Xtrabackup 安装、备份、恢复
查看>>
mysql [Err] 1436 - Thread stack overrun: 129464 bytes used of a 286720 byte stack, and 160000 bytes
查看>>
MySQL _ MySQL常用操作
查看>>
MySQL – 导出数据成csv
查看>>
MySQL —— 在CentOS9下安装MySQL
查看>>
mysql 不区分大小写
查看>>
mysql 两列互转
查看>>
MySQL 中开启二进制日志(Binlog)
查看>>
MySQL 中文问题
查看>>
MySQL 中日志的面试题总结
查看>>
MySQL 中随机抽样:order by rand limit 的替代方案
查看>>
MySQL 为什么需要两阶段提交?
查看>>
mysql 为某个字段的值加前缀、去掉前缀
查看>>
mysql 主从 lock_mysql 主从同步权限mysql 行锁的实现
查看>>
mysql 主从互备份_mysql互为主从实战设置详解及自动化备份(Centos7.2)
查看>>
mysql 主键重复则覆盖_数据库主键不能重复
查看>>
Mysql 优化 or
查看>>
mysql 优化器 key_mysql – 选择*和查询优化器
查看>>
MySQL 优化:Explain 执行计划详解
查看>>