首页 > 编程语言_编程学习 > 正文

Python jieba分词添加自定义词和去除不需要长尾词的操作方法_python

分类：编程语言_编程学习作者：虚坏叔叔发布日期：2023-07-05 15:07:12
原文：https://blog.csdn.net/biggbang/article/details/129260648

目录

一、添加自定义词
二、去除不需要长尾词
总结

Python jieba分词如何添加自定义词和去除不需要长尾词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZbGUd57b-1677564707180)(2007.assets/1-1677564619771.png)]

通过如下代码，读取一个txt的高频词汇：

            # 找到高频词汇
            tmp_content = self.getContent(tmp_path)
            keyword_list = tmp_content.split('\n')
            word_count = dict()
            for keyword in keyword_list:
                for word,flag in jp.cut(keyword):
                    if word in word_count:
                        word_count[word] = word_count[word] +1
                    else:
                        word_count[word] =1
            for word, count in word_count.items():
                print('%s\t%s' % (word,count))

很多情况下 jieba它不知道一些词汇，比如说获得的词汇如下

建立 和 可视化 是2个独立的单词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hGFRlmcz-1677564707182)(2007.assets/image-20230228140647773.png)]

一、添加自定义词

通过添加自定义词

import jieba
import jieba.posseg as jp
jieba.load_userdict(r'jieba_dict.txt')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ljn92rgA-1677564707182)(2007.assets/image-20230228140134068.png)]

就可以看到，统计出来的词是这个自定义词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uphMFIPd-1677564707182)(2007.assets/image-20230228140339267.png)]

二、去除不需要长尾词

有时统计出来的某些词汇jieba认为是一个词汇但是此时我想让他变为多个词汇，可以通过如下代码实现：

import jieba
import jieba.posseg as jp
jieba.del_word('创建活动')

此时 jieba 就会不认定 创建活动 是一个词，它会将它们分开统计

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QX0aqeZ8-1677564707183)(2007.assets/image-20230228140926854.png)]

总结

本文主要介绍jieba的基础用法。

推荐阅读：

Pytorch mask-rcnn 实现细节分享_python

idea 右键项目没有run 运行选项_java

JS判断数组是否包含某元素实现方法汇总_javascript技巧

使用mybatis-plus-generator进行代码自动生成的方法_java

使用mybatis-plus-generator进行代码自动生成的方法_java

SpringBoot整合spring-data-jpa的方法_java

JS script脚本中async和defer区别详解_javascript技巧

java操作Redis缓存设置过期时间的方法_java

javascript实现前端分页效果_javascript技巧

Python 分布式缓存之Reids数据类型操作详解_python

PyTorch中model.zero_grad()和optimizer.zero_grad()用法_python

JS实现多选框的操作_javascript技巧

快速学习C# 设计模式之职责链模式_C#教程

微信小程序实现发微博功能的示例代码_javascript技巧

Pytorch实现将模型的所有参数的梯度清0_python

热门内容：

python包/库安装，解决ImportError: DLL load failed while importing _framework_bindings

pytorch测试GPU是否可用和cudnn检测是否可用

Jupyter Notebook：FileNotFoundError: [WinError 2] 系统找不到指定的文件

excel怎么把重复项合并? excel将相同名字的数据合并在一起的教程_excel_办公软件_软件教程

windows怎么重启服务的命令? Windows服务启动与停止命令的教程_windows_Windows系列_操作系统

win11蜘蛛纸牌在哪 win11玩蜘蛛纸牌游戏的方法_windows11_Windows系列_操作系统

如何用ps调整贴图明暗色差的颜色? ps中调整色彩明暗度的的技巧_photoshop教程

win10开机10秒倒计时怎么取消? Win10取消开机倒计时的三种方法_windows10_Windows系列_操作系统

电脑C盘拒绝访问或打不开怎么办? win11/win10 C盘决绝访问的多种解决办法_windows11_Windows系列_操作系统

WPS如何并排比较两个文档 WPS并排比较两个文档的方法_金山WPS_办公软件_软件教程

WPS打印时如何添加装订线 WPS打印时添加装订线的方法_金山WPS_办公软件_软件教程

怎么关闭chrome/edge浏览器打开外部应用程序的弹窗禁止广告弹窗的技巧_浏览下载_软件教程

WPS表格筛选后如何恢复原本的所有数据 Excel还原筛选的数据的方法_金山WPS_办公软件_软件教程

win10搜索不到指定内容怎么办? Win10搜索文件功能找不到文件的多种解决办法_windows10_Windows系列_操作系统

Win11更新失败资源管理器崩溃无限重启怎么解决?_windows11_Windows系列_操作系统

WPS饼图如何设置为分离性饼图 WPS饼图设置为分离性饼图的方法_金山WPS_办公软件_软件教程

wps表格无法拖动怎么回事? WPS Excel单元格无法拖拽移动的解决方法_金山WPS_办公软件_软件教程

WPS幻灯片中如何添加创意图形 WPS幻灯片中添加创意图形的方法_金山WPS_办公软件_软件教程

Win11系统保护在哪? Win11关闭Windows保护的技巧_windows11_Windows系列_操作系统

WPS表格如何设置四舍五入取整 WPS表格设置数字四舍五入取整方法_金山WPS_办公软件_软件教程