您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers | 情感分类 | 知识图谱 |

自学教程:Python词频统计的两种方法详解

51自学网 2022-02-21 10:46:14
  python
这篇教程Python词频统计的两种方法详解写得很实用,希望能帮到您。

统计文件里每个单词的个数

思路:

分别统计文档中的单词,与出现的次数

用两个列表将其保存起来,最后再用zip()函数连接输出**

想法成立开始实践

方法一:

# 导入文件with open("passage.txt", 'r') as file:    dates = file.readlines()# 处理words = []for i in dates:    words += i.replace("/n", "").split(" ")  # 用空字符来代替换行 words +是为了不被覆盖无+将只有最后一条数据    # print(i.replace("/n","").split(" "))setWords = list(set(words))  # 集合自动去重num = []  # 统计一个单词出现的次数for k in setWords:    count = 0    for j in words:        if k == j:            count = count + 1    num.append(count)print(num)print(setWords)# 输出for x, y in zip(setWords, num):  # 将两个列表用zip结合    print(x + ":" + str(y))、

效果图:

在这里插入图片描述

方法二:

此方法用来字典,较前一个相对简洁一点

# 导入with open("passage.txt", 'r') as file:    dates = file.readlines()# 处理words = []for i in dates:    words += i.replace("/n", "").split(" ")    # print(i.replace("/n","").split(" "))# setWords=list(set(words))  #可以不用这个print(words)print("-" * 40)# print(setWords)diccount = dict()for i in words:    if (i not in diccount):        diccount[i] = 1  # 第一遍字典为空 赋值相当于 i=1,i为words里的单词        # print(diccount)    else:        diccount[i] = diccount[i] + 1  # 等不在里面的全部遍历一遍赋值就都在里面了,我们再来记数print(diccount)

效果图:

在这里插入图片描述

统计的文档

在这里插入图片描述

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注51zixue.net的更多内容!


Django ContentType组件详解
Python爬虫实现热门电影信息采集
万事OK自学网:51自学网_软件自学网_CAD自学网自学excel、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。