分区: 是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日 志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找,这样就大大提升
大魔王泛泛
2020-05-29
创建表时:创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。 删除表时:在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。
大魔王泛泛
2020-05-29
执行 hive --service metastore 开启metastore服务 有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和密码,只需要连接metastore 服务即可 客户端连接metastore服务,metastore再去连接MySQL数据库来存取元数据 元数据包含用Hive创建的database、table等的元信息
大魔王泛泛
2020-05-28
出现这个报错的原因是因为我们在HDFS上没有创建 spark/history文件夹 执行命令 hdfs dfs -mkdir -p /spark/history 之后重新运行程序即可
大魔王泛泛
2020-05-27
1.查询语言不同:hive是hql语言,mysql是sql语句; 2.数据存储位置不同:hive是把数据存储在hdfs上,而mysql数据是存储在自己的系统中; 3.数据格式:hive数据格式可以用户自定义,mysql有自己的系统定义格式; 4.数据更新:hive不支持数据更新,只可以读,不可以写,而sql支持数据更新; 5.索引:hive没有索引,因此查询数据的时候是通过mapreduce很暴力
大魔王泛泛
2020-05-27
CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。 from sklearn.feature_extraction.text import CountVectorizer texts=["orange banana apple grape","banana apple apple","grape",
大魔王泛泛
2020-05-25
敏捷项目管理的意义在于: 1.能使组织得以对需求的增加、变化或消除施加更多影响 2.能改进企业与客户之间的交流版,也为企业所有者提供支持,帮助他们获取并审查重要信息,用于做出正确决策,引导项目在开发流程中的权发展方向 3.可帮助从业者在敏捷原则、实践、工具和技能等方面拥有的知识和技能
大魔王泛泛
2020-05-23
这是因为没有配置事务支持,在Hive中只有配置了事务支持才可以执行insert Hive是用来做数仓的,基本上不执行事务处理
大魔王泛泛
2020-05-22
答:会的 我们在HDFS中存储数据是以块(block)的形式存放在DataNode中的,块(block)的大小可以通过设置dfs.blocksize来实现; 在Hadoop2.x的版本中,文件块的默认大小是128M,老版本中默认是64M
大魔王泛泛
2020-05-17
答:会的 我们在HDFS中存储数据是以块(block)的形式存放在DataNode中的,块(block)的大小可以通过设置dfs.blocksize来实现; 在Hadoop2.x的版本中,文件块的默认大小是128M,老版本中默认是64M
大魔王泛泛
2020-05-17
HDFS 在默认配置下副本数是3个,通常的存放策略是: 第一个副本放在和Client相同机架的Node里(如果Client不在集群范围,第一个Node是随机选取不太满或者不太忙的Node) 第二个副本放在与第一个Node不同的机架中的Node 第三个副本放在与第二个Node所在机架里不同的Node.
大魔王泛泛
2020-05-17
在Linux系统中使用tail命令即可实现自动追踪文件新增内容 命令:tail -F 文件名 如下图所示:左侧终端是用来追踪文件新增内容,右侧终端是用来编辑文件内容 我们将编辑之后的文件保存,结果如下:
大魔王泛泛
2020-05-16
首先打开自己电脑的任务管理器 看下性能那一栏下的右下角 有个虚拟化 看显示的是否是:已启用 如果不是的话(这里以hp电脑为例): 开机时按F10键进入到BIOS系统 选择“Security”-“System Security”敲击回车,选择“Virtualization Technology(VTx)”通过方向键左右键切换更改 “Virtualization Technology(VTx)”选择“
大魔王泛泛
2020-05-15
大魔王泛泛
2020-05-13
vi /etc/my.cnf 在[client]字段下添加:default-character-set = utf8 在[mysqld]字段下添加:character-set-server = utf8 collation-server = utf8_general_ci 保存并退出 重启Mysql服务: system restart mysq
大魔王泛泛
2020-05-08
在jupyter lab里运行pyspark时错误 如下图所示: 解决方法:把spark/python/lib 下的 py4j和pyspark 放到 anacdonda里的site-package目录下 并解压
大魔王泛泛
2020-05-08