python常见的中文分词包含哪些?
这里简单介绍2个中文分词包,一个是jieba,一个是snownlp,这2个中文分词包都可以完成中文分词、词性标注、关键词提取等功能,下面我简单介绍一下这2个包的安装和使用,实验环境win10+python3.6+pycharm5.0,主要内容如下:
jieba中文分词:这个大部分人都应该听过,应用比较广泛,可以完成常见的词性标注、关键词提取,使用起来非常方便,下面我简单介绍一下这个库:
1.安装jieba,这个直接在cmd窗口输入命令“pip install jieba”就行,如下:
2.安装完成后,就可以进行简单的测试了,测试代码如下,这里完成了分词、词性标注、提取关键词的功能:
程序运行截图如下,已经成功分词、标注词性及提取关键词:
snownlp中文分词:这也是一个中文分词包,所有算法都是作者自己实现,可以快速处理中文文本,包括分词、分句、词性标注、情感分析、关键词提取、tf、idf等,下面我简单介绍一下这个库:
1.安装snownlp,这个直接在cmd窗口输入命令“pip install snownlp”就行,如下,可能需要等待一会儿:
2.安装完成后,我们就可以进行简单的从测试了,主要代码如下,包括分词、词性标注等功能:
程序运行截图如下:
至此,我们就完成了jieba和snownlp这2个中分分词包的介绍和使用。总的来说,整个过程很简单,只要你有一定的python基础,熟悉一下相关示例和代码,很快就能掌握的,当然,你也可以使用其他中分分词包,像hulac,corenlp等,网上也有相关教程和资料,感兴趣的可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言。