Python批量处理中文文本并解析关键词
介绍几个处理文本的模块。
本文的使用环境在Ubuntu17.10、Pycharm 2017.3编辑器,以及Python3.6.3。
- Wordcloud, 可以将文本中的关键词总结并输出词云
https://github.com/amueller/word_cloud - jieba,像英语文章的单词那样将中文文本分成若干个词组
- docx,python处理doc、docx文本的模块
http://python-docx.readthedocs.io/en/latest/index.html - snownlp,可以对文本进行正负面情感分析取值
https://github.com/isnowfy/snownlp - pyLDAvis,直观地在默认网页显示关键词的可交互动态图
- textrank4zh,可以总结关键词出现的频率、关键词、关键句
https://github.com/letiantian/TextRank4ZH
模块安装和导入
pip3 install wordcloud
pip3 install jieba
pip3 install python-docx
pip3 install snownlp
pip3 install pyLDAvis
pip3 install textRank4zh
读入文本
若是docx文本,以下为处理一个文本的代码,批量处理可用数组储存文件名再遍历
1 | import docx |
若是单个txt文本,
1 | text = "example.txt" #可以修改文件名 |
生成词云
1 | from os import path |
提取关键词和分类
1 | from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer |
统计关键词出现的频率、关键词组和摘要
可直接参考github https://github.com/letiantian/TextRank4ZH。
情感分析
可直接参考github https://github.com/isnowfy/snownlp。
Python批量处理中文文本并解析关键词