jieba分词
jieba库是一款优秀的Python第三方中文分词库,jieba支持三种分词模式:精确模式、全模式和搜索引擎模式。
1、精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析。
2、全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据。
3、搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率,适合用于搜索引擎分词。
分词主要功能
jieba分词的主要功能有如下几种:
1.jieba.cut:该方法接受三个输入参数:需要分词的字符串;cut_all参数用来控制是否采用全模式;HMM参数用来控制是否适用HMM模型
2.jieba.cut_for_search:该方法接受两个参数:需要分词的字符串;是否使用HMM模型,该方法适用于搜索引擎构建倒排索引的分词,粒度比较细。
3.待分词的字符串可以是unicode或者UTF-8字符串,GBK字符串。注意不建议直接输入GBK字符串,可能无法预料的误解码成UTF-8
4.jieba.cut以及jieba.cut_for_search返回的结构都是可以得到的generator(生成器),可以使用for循环来获取分词后得到的每一个词语或者使用
5.jieb.lcut以及jieba.lcut_for_search直接返回list
6.jieba.Tokenizer(dictionary=DEFUALT_DICT)新建自定义分词器,可用于同时使用不同字典,jieba.dt为默认分词器,所有全局分词相关函数都是该分词器的映射。
免责声明:本站发布的教育资讯(图片、视频和文字)以本站原创、转载和分享为主,文章观点不代表本网站立场。
如果本文侵犯了您的权益,请联系底部站长邮箱进行举报反馈,一经查实,我们将在第一时间处理,感谢您对本站的关注!
新励学网教育平台
海量全面 · 详细解读 · 快捷可靠
累积科普文章数:18,862,126篇