数据科学专业问答社区，好文章，一字千金--CDA答疑社区

Hive中分区和分桶的区别

分区：是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。其实这个情况下，我们可以按照日期对数据表进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从该分区查找，这样就大大提升

大魔王泛泛

2020-05-29

0.0183 3 2

hive 内部表和外部表区别

创建表时：创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。删除表时：在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

大魔王泛泛

2020-05-29

16.5198 3 5

为什么需要开启metastore服务？

执行 hive --service metastore 开启metastore服务有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务即可客户端连接metastore服务，metastore再去连接MySQL数据库来存取元数据元数据包含用Hive创建的database、table等的元信息

大魔王泛泛

2020-05-28

8.7847 4 4

File does not exist: hdfs:// 192.168.199. 134 : 9000/ spark/history

出现这个报错的原因是因为我们在HDFS上没有创建 spark/history文件夹执行命令 hdfs dfs -mkdir -p /spark/history 之后重新运行程序即可

大魔王泛泛

2020-05-27

8.7068 1 3

1.查询语言不同：hive是hql语言，mysql是sql语句； 2.数据存储位置不同：hive是把数据存储在hdfs上，而mysql数据是存储在自己的系统中； 3.数据格式：hive数据格式可以用户自定义，mysql有自己的系统定义格式； 4.数据更新：hive不支持数据更新，只可以读，不可以写，而sql支持数据更新； 5.索引：hive没有索引，因此查询数据的时候是通过mapreduce很暴力

大魔王泛泛

2020-05-27

14.8267 4 3

简述一下CountVectorizer类中vocabulary_方法的用法

CountVectorizer是属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。 from sklearn.feature_extraction.text import CountVectorizer texts=["orange banana apple grape","banana apple apple","grape",

大魔王泛泛

2020-05-25

18.5667 3 4

敏捷项目管理的意义在于什么

敏捷项目管理的意义在于： 1.能使组织得以对需求的增加、变化或消除施加更多影响 2.能改进企业与客户之间的交流版，也为企业所有者提供支持，帮助他们获取并审查重要信息，用于做出正确决策，引导项目在开发流程中的权发展方向 3.可帮助从业者在敏捷原则、实践、工具和技能等方面拥有的知识和技能

大魔王泛泛

2020-05-23

43.9108 5 3

hive报错 Failed command:insert into table address values

这是因为没有配置事务支持，在Hive中只有配置了事务支持才可以执行insert Hive是用来做数仓的，基本上不执行事务处理

大魔王泛泛

2020-05-22

33.7742 2 3

DataFrame中怎样重置索引index

在DataFrame中我们可以使用reset_index()方法来重置索引，如图中所示：

大魔王泛泛

2020-05-19

22.9645 2 1

DataFrame里面怎么运行pd.date_range函数

pd.date_range函数在DataFrame中的使用方法，如下图所示

大魔王泛泛

2020-05-19

22.9645 2 4

启动HDFS系统时DataNode节点没有启动起来

如图中错误信息所示：我们只要把dfs下的所有文件夹全部删除，然后重启HDFS系统即可成功

大魔王泛泛

2020-05-18

90.4576 4 4

HDFS中使用put命令上传到hdfs的文件也会进行分布式存储？

答：会的我们在HDFS中存储数据是以块（block）的形式存放在DataNode中的，块（block）的大小可以通过设置dfs.blocksize来实现；在Hadoop2.x的版本中，文件块的默认大小是128M，老版本中默认是64M

大魔王泛泛

2020-05-17

72.1973 2 3

HDFS中使用put命令上传到hdfs的文件也会进行分布式存储

答：会的我们在HDFS中存储数据是以块（block）的形式存放在DataNode中的，块（block）的大小可以通过设置dfs.blocksize来实现；在Hadoop2.x的版本中，文件块的默认大小是128M，老版本中默认是64M

大魔王泛泛

2020-05-17

0.5077 1 3

HDFS中副本的存放策略

HDFS 在默认配置下副本数是3个，通常的存放策略是：第一个副本放在和Client相同机架的Node里（如果Client不在集群范围，第一个Node是随机选取不太满或者不太忙的Node）第二个副本放在与第一个Node不同的机架中的Node 第三个副本放在与第二个Node所在机架里不同的Node.

大魔王泛泛

2020-05-17

0.5077 1 1

Linux系统中怎样自动追踪文件新增内容

在Linux系统中使用tail命令即可实现自动追踪文件新增内容命令：tail -F 文件名如下图所示：左侧终端是用来追踪文件新增内容，右侧终端是用来编辑文件内容我们将编辑之后的文件保存，结果如下：

大魔王泛泛

2020-05-16

22.9572 2 1

怎样开启Windows系统中的虚拟化技术？

首先打开自己电脑的任务管理器看下性能那一栏下的右下角有个虚拟化看显示的是否是：已启用如果不是的话（这里以hp电脑为例）：开机时按F10键进入到BIOS系统选择“Security”-“System Security”敲击回车，选择“Virtualization Technology（VTx）”通过方向键左右键切换更改 “Virtualization Technology（VTx）”选择“

大魔王泛泛

2020-05-15

24.6852 2 1

在DataFrame中怎样把某一列的NaN值替换掉

使用fillna()方法来填充缺失值如下图所示：

大魔王泛泛

2020-05-13

43.2783 2 2

ValueExror: The truth value of a Series is ambiguous.

大魔王泛泛

2020-05-13

43.2783 2 1

CentOS7下设置Mysql数据库字符集编码为utf8

vi /etc/my.cnf 在[client]字段下添加：default-character-set = utf8 在[mysqld]字段下添加：character-set-server = utf8 collation-server = utf8_general_ci 保存并退出重启Mysql服务: system restart mysq

大魔王泛泛

2020-05-08

26.8058 2 1

ModuleNotFoundError: No module named ' pyspark

在jupyter lab里运行pyspark时错误如下图所示：解决方法：把spark/python/lib 下的 py4j和pyspark 放到 anacdonda里的site-package目录下并解压

大魔王泛泛

2020-05-08

26.6533 1 3