网上药店
您现在的位置: 小王子 >> 小王子图书 >> 正文 >> 正文

词云图设计No3英文词文本处理

来源:小王子 时间:2021/5/2
白癜风身上复发该怎么办 http://m.39.net/pf/a_4467053.html
在前面文章中介绍了一个最简单的词云图制作方法,里面仅用了一个单词作为词文本,今天来介绍一下如何对复杂英文文本进行处理。下图是《小王子》的英文原文:需要引用的模块如下,在文章?词云图设计No.1——编写一个最简单的词云图程序的基础上增加一个STOPWORDS模块。

fromwordcloudimportWordCloud,STOPWORDSfromPILimportImageimportnumpyasnpimportmatplotlib.colorsascolors

使用以下程序读取原文:

withopen(rLittlePrince.txt)asf:text=f.read()

进行wordcloud设置:

wc=WordCloud(scale=5,#绘图比例font_path=msyhbd.ttc,#字体路径background_color=white,#背景颜色width=,#设置图片大小height=,max_font_size=30,#设置字体大小和计算步长min_font_size=1,font_step=1,mask=np.array(Image.open(heart.jpg)),#模板图片max_words=,#最大显示词数relative_scaling=0.5,#词频与文本大小的关联度colormap=colors.ListedColormap(#C)#使用自定义字体颜色)

根据以上设置生成词云图:

ws=wc.generate(text)#根据给定词文本生成词云ws.to_file(heart1.jpg)#写入文件

生成的词云图如下:那么如果里面有一些我们不想要的词,应该怎么移除呢?我们在前面的文章?词云图设计No.2——如何设置wordcould参数中简单介绍过的stopwords停用词功能的使用。在上文中我们已经引入了STOPWORDS模块,里面自带了一些英文的停用词,在缺省状态下程序已经按默认列表去除了停用词。如果我们要增加几个停用词,如one、two、yes等,可以参考以下命令,在原有的停用词列表中增加一些新词。

stop_words=set(STOPWORDS)#设置停用词stop_words.add(one)stop_words.add(two)stop_words.add(yes)stop_words.add(you)stop_words.add(little)stop_words.add(s)stop_words.add(t)stop_words.add(don)

然后,在wordcloud设置中加入一行:

Stopwords=stop_words,#停用词设置

重新生成词云图如下:英文文本的处理在本篇中就介绍那么多,在后面的文章中,我们会详细介绍更为复杂的中文文本的处理。

——END——

相关文章

?手把手教你安装Python附安装包

?Python库安装方法——词云图设计准备

?词云图设计No.1——编写一个最简单的词云图程序

?词云图设计No.2——如何设置wordcould参数

作者:招财小肥宅

关键词:睡懒觉、看电视、技术宅、撸可爱的猫猫狗狗、拼乐高

不定期更新有意思的内容,为您提供内容界的Omakase,敬请

转载请注明:http://www.budanx.com/xwzts/7641.html