文本挖掘主要涉及哪些步骤？

2020-11-15 阅读量: 548

数据分析师

扫码加入数据分析学习群

问：

文本挖掘主要涉及哪些步骤？

答：

可以参考以下步骤：

1.语料库创建 - 它涉及创建包含文档和术语（或标记）的矩阵。文档可以被理解为每行具有产品描述并且每列具有术语。术语是指说明中的每个单词。通常，语料库中的文档数等于给定数据中的行数。

2.文本清理 - 它涉及以下列方式清理文本：

3. 特征工程 - 用于减少因文本数据提供的广泛可能性的新函数的维度

4. 模型构建 - 在原始数据通过上述所有步骤后，它就可以进行模型构建。如上所述，并非所有ML算法在文本数据上都表现良好。众所周知，朴素贝叶斯能够为文本数据提供高精度。此外，深度神经网络模型也表现得相当好。

37.4575 1 0 踩关注作者收藏

暂无数据

评论(0)