大魔王泛泛

Hive中分区和分桶的区别

分区: 是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日 志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找,这样就大大提升

大魔王泛泛

2020-05-29

0.0183 3 2
  • 关注作者
  • 收藏

hive 内部表和外部表区别

创建表时:创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。 删除表时:在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。

大魔王泛泛

2020-05-29

16.5198 3 5
  • 关注作者
  • 收藏

为什么需要开启metastore服务?

执行 hive --service metastore 开启metastore服务 有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和密码,只需要连接metastore 服务即可 客户端连接metastore服务,metastore再去连接MySQL数据库来存取元数据 元数据包含用Hive创建的database、table等的元信息

大魔王泛泛

2020-05-28

8.7847 4 4
  • 关注作者
  • 收藏

File does not exist: hdfs:// 192.168.199. 134 : 9000/ spark/history

出现这个报错的原因是因为我们在HDFS上没有创建 spark/history文件夹 执行命令 hdfs dfs -mkdir -p /spark/history 之后重新运行程序即可

大魔王泛泛

2020-05-27

8.7068 1 3
  • 关注作者
  • 收藏

数据仓库Hive和数据库Mysql的区别

1.查询语言不同:hive是hql语言,mysql是sql语句; 2.数据存储位置不同:hive是把数据存储在hdfs上,而mysql数据是存储在自己的系统中; 3.数据格式:hive数据格式可以用户自定义,mysql有自己的系统定义格式; 4.数据更新:hive不支持数据更新,只可以读,不可以写,而sql支持数据更新; 5.索引:hive没有索引,因此查询数据的时候是通过mapreduce很暴力

大魔王泛泛

2020-05-27

14.8267 4 3
  • 关注作者
  • 收藏

简述一下CountVectorizer类中vocabulary_方法的用法

CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。 from sklearn.feature_extraction.text import CountVectorizer texts=["orange banana apple grape","banana apple apple","grape",

大魔王泛泛

2020-05-25

18.5667 3 4
  • 关注作者
  • 收藏

敏捷项目管理的意义在于什么

敏捷项目管理的意义在于: 1.能使组织得以对需求的增加、变化或消除施加更多影响 2.能改进企业与客户之间的交流版,也为企业所有者提供支持,帮助他们获取并审查重要信息,用于做出正确决策,引导项目在开发流程中的权发展方向  3.可帮助从业者在敏捷原则、实践、工具和技能等方面拥有的知识和技能

大魔王泛泛

2020-05-23

43.9108 5 3
  • 关注作者
  • 收藏

hive报错 Failed command:insert into table address values

这是因为没有配置事务支持,在Hive中只有配置了事务支持才可以执行insert Hive是用来做数仓的,基本上不执行事务处理

大魔王泛泛

2020-05-22

33.7742 2 3
  • 关注作者
  • 收藏

DataFrame中怎样重置索引index

在DataFrame中我们可以使用reset_index()方法来重置索引,如图中所示:

大魔王泛泛

2020-05-19

22.9645 2 1
  • 关注作者
  • 收藏

DataFrame里面怎么运行pd.date_range函数

pd.date_range函数在DataFrame中的使用方法,如下图所示

大魔王泛泛

2020-05-19

22.9645 2 4
  • 关注作者
  • 收藏

启动HDFS系统时DataNode节点没有启动起来

如图中错误信息所示: 我们只要把dfs下的所有文件夹全部删除,然后重启HDFS系统即可成功

大魔王泛泛

2020-05-18

90.4576 4 4
  • 关注作者
  • 收藏

HDFS中使用put命令上传到hdfs的文件也会进行分布式存储?

答:会的 我们在HDFS中存储数据是以块(block)的形式存放在DataNode中的,块(block)的大小可以通过设置dfs.blocksize来实现; 在Hadoop2.x的版本中,文件块的默认大小是128M,老版本中默认是64M

大魔王泛泛

2020-05-17

72.1973 2 3
  • 关注作者
  • 收藏

HDFS中使用put命令上传到hdfs的文件也会进行分布式存储

答:会的 我们在HDFS中存储数据是以块(block)的形式存放在DataNode中的,块(block)的大小可以通过设置dfs.blocksize来实现; 在Hadoop2.x的版本中,文件块的默认大小是128M,老版本中默认是64M

大魔王泛泛

2020-05-17

0.5077 1 3
  • 关注作者
  • 收藏

HDFS中副本的存放策略

HDFS 在默认配置下副本数是3个,通常的存放策略是: 第一个副本放在和Client相同机架的Node里(如果Client不在集群范围,第一个Node是随机选取不太满或者不太忙的Node) 第二个副本放在与第一个Node不同的机架中的Node 第三个副本放在与第二个Node所在机架里不同的Node.

大魔王泛泛

2020-05-17

0.5077 1 1
  • 关注作者
  • 收藏

Linux系统中怎样自动追踪文件新增内容

在Linux系统中使用tail命令即可实现自动追踪文件新增内容 命令:tail -F 文件名 如下图所示:左侧终端是用来追踪文件新增内容,右侧终端是用来编辑文件内容 我们将编辑之后的文件保存,结果如下:

大魔王泛泛

2020-05-16

22.9572 2 1
  • 关注作者
  • 收藏

怎样开启Windows系统中的虚拟化技术?

首先打开自己电脑的任务管理器 看下性能那一栏下的右下角 有个虚拟化 看显示的是否是:已启用 如果不是的话(这里以hp电脑为例): 开机时按F10键进入到BIOS系统 选择“Security”-“System Security”敲击回车,选择“Virtualization Technology(VTx)”通过方向键左右键切换更改 “Virtualization Technology(VTx)”选择“

大魔王泛泛

2020-05-15

24.6852 2 1
  • 关注作者
  • 收藏

在DataFrame中怎样把某一列的NaN值替换掉

使用fillna()方法来填充缺失值 如下图所示:

大魔王泛泛

2020-05-13

43.2783 2 2
  • 关注作者
  • 收藏

ValueExror: The truth value of a Series is ambiguous.

大魔王泛泛

2020-05-13

43.2783 2 1
  • 关注作者
  • 收藏

CentOS7下设置Mysql数据库字符集编码为utf8

vi /etc/my.cnf 在[client]字段下添加:default-character-set = utf8 在[mysqld]字段下添加:character-set-server = utf8 collation-server = utf8_general_ci 保存并退出 重启Mysql服务: system restart mysq

大魔王泛泛

2020-05-08

26.8058 2 1
  • 关注作者
  • 收藏

ModuleNotFoundError: No module named ' pyspark

在jupyter lab里运行pyspark时错误 如下图所示: 解决方法:把spark/python/lib 下的 py4j和pyspark 放到 anacdonda里的site-package目录下 并解压

大魔王泛泛

2020-05-08

26.6533 1 3
  • 关注作者
  • 收藏
<12320>