jieba分词

发表时间：2024-07-14 22:59:35 来源：网友投稿

jieba库是一款优秀的Python第三方中文分词库，jieba支持三种分词模式：精确模式、全模式和搜索引擎模式。

1、精确模式：试图将语句最精确的切分，不存在冗余数据，适合做文本分析。

2、全模式：将语句中所有可能是词的词语都切分出来，速度很快，但是存在冗余数据。

3、搜索引擎模式：在精确模式的基础上，对长词再次进行切分，提高召回率，适合用于搜索引擎分词。

分词主要功能

jieba分词的主要功能有如下几种：

1.jieba.cut：该方法接受三个输入参数：需要分词的字符串;cut_all参数用来控制是否采用全模式；HMM参数用来控制是否适用HMM模型

2.jieba.cut_for_search：该方法接受两个参数：需要分词的字符串；是否使用HMM模型，该方法适用于搜索引擎构建倒排索引的分词，粒度比较细。

3.待分词的字符串可以是unicode或者UTF－8字符串，GBK字符串。注意不建议直接输入GBK字符串，可能无法预料的误解码成UTF－8

4.jieba.cut以及jieba.cut_for_search返回的结构都是可以得到的generator(生成器),可以使用for循环来获取分词后得到的每一个词语或者使用

5.jieb.lcut以及jieba.lcut_for_search直接返回list

6.jieba.Tokenizer(dictionary=DEFUALT_DICT)新建自定义分词器，可用于同时使用不同字典，jieba.dt为默认分词器，所有全局分词相关函数都是该分词器的映射。

免责声明：本站发布的教育资讯（图片、视频和文字）以本站原创、转载和分享为主，文章观点不代表本网站立场。

如果本文侵犯了您的权益，请联系底部站长邮箱进行举报反馈，一经查实，我们将在第一时间处理，感谢您对本站的关注！