zengweiak47

2020-08-13   阅读量: 672

8月13日

扫码加入数据分析学习群

朴素贝叶斯
(把数据中的每个特征看做独立分布)
如何提取文本特征(NLP)
在计算机计算时防止下溢出,取对数
词向量模型
One-hot Representtation
DIstributed representTation
词袋模型:

TF-IDF模型(不但考虑出现次数,还有逆文本频率)
TF大表示在本文本中出现次数多
IDF大表示在其他文本出现少,本文出现多

1.文本分类: 邮件分类,情感分类,正负评论分类
2.文本聚类:豆瓣书籍聚类

贝叶斯对输入数据敏感
去掉停用词,会提高贝叶斯模型精度

流程
1,爬取数据: 文本,标签
2,中文分词,去停用词
3,提取文本特征: TF-IDF模型
4,建模,模型优化,模型应用
分词下载地址:https://github.com/goto456/stopwords

只有朴素贝叶斯是生成模型,其他都是判别模型

关联规则
所有项集
流程
1.生成频繁项集:
连接布:两个连接原理
剪枝步:AP原理,计算支持度:
2.关联规则:
AP原理去掉弱规则(选出强规则)
计算置信度




添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
32.2370 4 3 关注作者 收藏

评论(0)


暂无数据

推荐课程