大魔王泛泛

python 中怎样对不同的列分别填充不同的缺失值

对于这种情况我们会采用 fillna()函数对缺失值进行处理,参数是一个字典,用字典对不同的列填充不同的缺失数据 如下图所示:

大魔王泛泛

2020-06-18

14.1454 1 7
  • 关注作者
  • 收藏

numpy.random.seed()的参数说明

seed( ) 用于指定随机数生成时所用算法开始的整数值,如果使用相同的seed( )值,则每次生成的随即数都相同 ,如下图所示:

大魔王泛泛

2020-06-16

29.7890 3 0
  • 关注作者
  • 收藏

怎样找到Spark API 的详细文档说明

首先 我们要进入到Spark的官方网站 http://spark.apache.org/,之后进入Documentation页面 如下图所示: 之后我们只要根据自己的需求选择想要的Spark版本,并进入到它的API文档中即可:

大魔王泛泛

2020-06-14

18.6940 2 3
  • 关注作者
  • 收藏

spark读取文件时会卡住不动?

这是因为有时我们用spark读取的文件较大并可能要求其自动判断字段类型,这个过程是比较消耗时间的,这里我们只需耐心等待即可

大魔王泛泛

2020-06-14

18.6940 2 5
  • 关注作者
  • 收藏

Kafka可以处理图像、视频类型的数据吗

Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,当然也可以处理像图像、视频这种类型的数据

大魔王泛泛

2020-06-14

20.1889 2 5
  • 关注作者
  • 收藏

在Anaconda里如何安装xgboost

打开 Anaconda prompt 执行:conda install -c anaconda py-xgboost 验证是否安装成功: 我们看到了xgboost的版本号 证明安装成功

大魔王泛泛

2020-06-13

16.7576 7 1
  • 关注作者
  • 收藏

ExceptionE Jupyter comnand‘ jupyter-contrib' not found

出现这个错误 是因为我们没有安装 jupyter-contrib 在命令行中执行 pip install jupyter_contrib_nbextensions 即可安装jupyter-contrib

大魔王泛泛

2020-06-12

11.6059 3 2
  • 关注作者
  • 收藏

Python中List.pop()和set.pop()的不同

在List中pop() 函数用于移除列表中的一个元素(默认最后一个元素),并且返回该元素的值 在set中当集合是由列表和元组组成时,set.pop()是删除左边第一个元素的 set1 = set([9,4,5,2,6,7,1,8]) print(set1) print(set1.pop()) print(set1) 结果: {1, 2, 4, 5, 6, 7, 8, 9} 1 {2, 4, 5

大魔王泛泛

2020-06-11

16.5388 4 4
  • 关注作者
  • 收藏

怎样理解对象集数据与操作于一身

对象是人们要进行研究的任何事物,它不仅能表示具体的事物,还能表示抽象的规则、计划或事件。 对象具有状态,一个对象用数据值来描述它的状态。 对象还有操作,用于改变对象的状态,对象及其操作就是对象的行为。 对象实现了数据和操作的结合,使数据和操作封装于对象的统一体中。

大魔王泛泛

2020-06-10

13.2790 3 3
  • 关注作者
  • 收藏

python中break和continue的区别

break语句用来终止循环语句,即循环条件没有False条件或者序列还没被完全递归完,也会停止执行循环语句 continue语句用来告诉python跳过当前循环,进行下一个循环

大魔王泛泛

2020-06-10

13.2790 3 3
  • 关注作者
  • 收藏

在jupyter notebook中怎么运行代码

方式一:Shift Enter 运行本单元,选中下一单元 方式二:Ctrl Enter 运行本单元 方式三:Alt Enter 运行本单元,在下面插入一单元

大魔王泛泛

2020-06-08

13.9980 3 3
  • 关注作者
  • 收藏

把RDD保存在HDFS上为什么会分为两个文件

因为RDD是一种弹性分布式数据集,它是分区的,而它的分区数是由核数决定的,而我们配置的核数是2,所以是2个分区,也就是2个文件

大魔王泛泛

2020-06-07

24.6407 2 7
  • 关注作者
  • 收藏

jupyter lab 在后台启动时怎么关闭

ps aux | grep jupyter 找到jupyter lab的进程号 kill -9 jupyter lab进程号 如下图:kill -9 17058

大魔王泛泛

2020-06-06

51.2029 4 3
  • 关注作者
  • 收藏

在Windows系统中怎样查看python的具体版本

首先同时按windows R键 会弹出一个对话框,之后输入cmd,如下图所示: 再按回车键,会弹出一个黑色的对话框,我们在里面输入python,再按回车键,就可以看到python的具体版本了

大魔王泛泛

2020-06-05

15.4153 2 1
  • 关注作者
  • 收藏

spark. read. option( "inferSchema","false" )

图中划红线的部分代表什么意思 option( "inferSchema","false" ) inferSchema 表示是否支持从数据中自动推导出schema,false表示的是不会自动推导出schema

大魔王泛泛

2020-06-04

14.7447 2 2
  • 关注作者
  • 收藏

Hive的特点及其应用场景

特点: 1. 简单容易上手:提供了类SQL查询语言HQL 2. 可扩展:为超大数据集设计了计算/扩展能力(MR作为计算引擎,HDFS作为存储系统)一般情况下不需要重启服务Hive可以自由的扩展集群的规模 3. 提供统一的元数据管理 4. 延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数 5. 容错:良好的容错性,节点出现问题SQL仍可完成执行 应用场景: 1. 日志分析

大魔王泛泛

2020-05-31

0.0344 2 0
  • 关注作者
  • 收藏

简述一下Hive中的外部表

外部表的表数据由HDFS管理,Hive管理外部表元数据,表数据保存在HDFS上,该位置由用户指定 删除表时,只会删除表的元数据,所以外部表不是由Hive完全管理的

大魔王泛泛

2020-05-31

0.0344 2 0
  • 关注作者
  • 收藏

进入hive显示拒绝连接是什么原因

如图所示: 进入hive显示拒绝连接是因为没有开启HDFS,因为hive是要访问HDFS上的数据的 执行start-dfs.sh 然后再进入hive 即可成功

大魔王泛泛

2020-05-31

27.2551 3 3
  • 关注作者
  • 收藏

HBase中用put命令成功插入数据,为什么返回的信息是 0 rows?

如图所示: 问:我用put的时候为啥返回的信息是 0 rows?数据的确成功插入了,那不应该是1 rows吗 答:HBase中用put命令插入数据成功时是不会返回插入成功的行数的,返回的 0 row(s)只是代表插入数据时没有报错

大魔王泛泛

2020-05-31

27.1307 2 1
  • 关注作者
  • 收藏

启动HDFS时不成功

1. 执行命令 ip addr 查看本机ip地址 2. 执行 sudo vi/etc/hosts 编辑最后一行 把ip替换为本机ip地址 3. 重启HDFS即可

大魔王泛泛

2020-05-30

0.0001 1 3
  • 关注作者
  • 收藏
12320>