数据科学专业问答社区，好文章，一字千金--CDA答疑社区

python 中怎样对不同的列分别填充不同的缺失值

对于这种情况我们会采用 fillna（）函数对缺失值进行处理，参数是一个字典，用字典对不同的列填充不同的缺失数据如下图所示：

大魔王泛泛

2020-06-18

14.1454 1 7

numpy.random.seed()的参数说明

seed( ) 用于指定随机数生成时所用算法开始的整数值，如果使用相同的seed( )值，则每次生成的随即数都相同 ,如下图所示：

大魔王泛泛

2020-06-16

29.7890 3 0

怎样找到Spark API 的详细文档说明

首先我们要进入到Spark的官方网站 http://spark.apache.org/，之后进入Documentation页面如下图所示：之后我们只要根据自己的需求选择想要的Spark版本，并进入到它的API文档中即可：

大魔王泛泛

2020-06-14

18.6940 2 3

spark读取文件时会卡住不动？

这是因为有时我们用spark读取的文件较大并可能要求其自动判断字段类型，这个过程是比较消耗时间的，这里我们只需耐心等待即可

大魔王泛泛

2020-06-14

18.6940 2 5

Kafka可以处理图像、视频类型的数据吗

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的、多副本的，基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，当然也可以处理像图像、视频这种类型的数据

大魔王泛泛

2020-06-14

20.1889 2 5

在Anaconda里如何安装xgboost

打开 Anaconda prompt 执行：conda install -c anaconda py-xgboost 验证是否安装成功：我们看到了xgboost的版本号证明安装成功

大魔王泛泛

2020-06-13

16.7576 7 1

ExceptionE Jupyter comnand‘ jupyter-contrib' not found

出现这个错误是因为我们没有安装 jupyter-contrib 在命令行中执行 pip install jupyter_contrib_nbextensions 即可安装jupyter-contrib

大魔王泛泛

2020-06-12

11.6059 3 2

Python中List.pop()和set.pop()的不同

在List中pop() 函数用于移除列表中的一个元素（默认最后一个元素），并且返回该元素的值在set中当集合是由列表和元组组成时,set.pop()是删除左边第一个元素的 set1 = set([9,4,5,2,6,7,1,8]) print(set1) print(set1.pop()) print(set1) 结果: {1, 2, 4, 5, 6, 7, 8, 9} 1 {2, 4, 5

大魔王泛泛

2020-06-11

16.5388 4 4

怎样理解对象集数据与操作于一身

对象是人们要进行研究的任何事物，它不仅能表示具体的事物，还能表示抽象的规则、计划或事件。对象具有状态，一个对象用数据值来描述它的状态。对象还有操作，用于改变对象的状态，对象及其操作就是对象的行为。对象实现了数据和操作的结合，使数据和操作封装于对象的统一体中。

大魔王泛泛

2020-06-10

13.2790 3 3

python中break和continue的区别

break语句用来终止循环语句，即循环条件没有False条件或者序列还没被完全递归完，也会停止执行循环语句 continue语句用来告诉python跳过当前循环，进行下一个循环

大魔王泛泛

2020-06-10

13.2790 3 3

在jupyter notebook中怎么运行代码

方式一：Shift Enter 运行本单元，选中下一单元方式二：Ctrl Enter 运行本单元方式三：Alt Enter 运行本单元，在下面插入一单元

大魔王泛泛

2020-06-08

13.9980 3 3

把RDD保存在HDFS上为什么会分为两个文件

因为RDD是一种弹性分布式数据集，它是分区的，而它的分区数是由核数决定的，而我们配置的核数是2，所以是2个分区，也就是2个文件

大魔王泛泛

2020-06-07

24.6407 2 7

jupyter lab 在后台启动时怎么关闭

ps aux | grep jupyter 找到jupyter lab的进程号 kill -9 jupyter lab进程号如下图：kill -9 17058

大魔王泛泛

2020-06-06

51.2029 4 3

在Windows系统中怎样查看python的具体版本

首先同时按windows R键会弹出一个对话框，之后输入cmd，如下图所示：再按回车键，会弹出一个黑色的对话框，我们在里面输入python，再按回车键，就可以看到python的具体版本了

大魔王泛泛

2020-06-05

15.4153 2 1

spark. read. option( "inferSchema"，"false" )

图中划红线的部分代表什么意思 option( "inferSchema"，"false" ) inferSchema 表示是否支持从数据中自动推导出schema，false表示的是不会自动推导出schema

大魔王泛泛

2020-06-04

14.7447 2 2

Hive的特点及其应用场景

特点： 1. 简单容易上手：提供了类SQL查询语言HQL 2. 可扩展：为超大数据集设计了计算/扩展能力（MR作为计算引擎，HDFS作为存储系统）一般情况下不需要重启服务Hive可以自由的扩展集群的规模 3. 提供统一的元数据管理 4. 延展性：Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数 5. 容错：良好的容错性，节点出现问题SQL仍可完成执行应用场景： 1. 日志分析

大魔王泛泛

2020-05-31

0.0344 2 0