数据科学专业问答社区，好文章，一字千金--CDA答疑社区

桑基图

桑基图，全称桑基能量分流图，也叫桑基能量平衡图。其明显的特征是，始末端的分支宽度总和相等，即所有主支宽度的总和应与所有分出去的分支宽度的总和相等，保持能量的平衡。

yuechuchen

2022-07-23

95.1933 1 0

集中趋势是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在。衡量分类数据集中趋势常用众数；衡量顺序数据集中趋势常用中位数和分位数；衡量数值型数据集中趋势常用平均数。离散程度是衡量数据分布的另一个重要特征，它反映的是个变量值远离其中心值的程度。衡量分类数据离散程度的是异众比率；衡量顺序数据离散程度的是四分位差；衡量数值型数据离散程度的是方差和标准差；数据的离散程度越大，集中趋势的测

yuechuchen

2022-07-22

95.1933 1 0

总体的概念

解答：总体（population）是包含所研究的全部个体（数据）的集合，它通常由所研究的一些个体组成，题目中的总体是A，我国所有男性

yuechuchen

2022-07-21

53.2259 1 0

子查询的位置应该放在哪里

解答：子查询可以出现在SELECT、WHERE、HAVING、FROM、JOIN子句中。

yuechuchen

2022-07-21

53.2259 1 0

having可以单独使用吗

having虽然常用groupby的后边，实际上是可以单独使用的。

yuechuchen

2022-07-21

53.2259 1 0

having可以单独使用吗

having虽然常用groupby的后边，实际上是可以单独使用的。

yuechuchen

2022-07-21

53.2259 1 1

事实表和维度表怎么理解

事实表可以理解成业务发生的记录表，表中会有数量、金额等字段维度表可以理解成对数据进行分析时需要用到的一些角度，表中不会记录具体的交易数量及金额等信息

yuechuchen

2022-07-21

53.2259 1 0

表关系及筛选方向

答案是C，因为与orderinfo有关联关系的表中，只有orderinfo和oderdetail是一对多的关系，orderinfo是1表，oderdetail是多表，1表筛选多表，所以选择答案C

yuechuchen

2022-07-21

53.2259 1 0

函数参数中出现的**kwarg是什么含义？

在函数的参数中：*arg表示收集位置参数，意味着该参数可以接收不限制数量的位置参数；**kwarg表示收集关键字参数，意味着该参数可以接收不限制数量的关键字参数。

yuechuchen

2020-06-22

25.6392 5 4

matplotlib中boxplot函数的参数meanline和showmeans的作用是什么

matplotlib中的箱线图在绘图过程中默认显示数据集的中位数线，均值线默认不显示，通过设置meanline=True和showmeans=True可以令箱线图在显示中位数线的同时显示均值线

yuechuchen

2020-06-22

25.3037 3 4

哪些因素影响决策树是否继续分支

决策树是否分支，一般有以下几种情况：1、所有叶节点的纯度都达到了百分之百；2、该节点上样本数量小于参数设置的可继续分支的最小样本数量；3、该节点分支后的信息增益小于指定的最小信息增益；4、决策树生长到了规定的最大树深，决策树停止分支

yuechuchen

2020-06-22

0.0000 0 2

决策树的根节点如何确定？

一般通过信息熵的下降速度来确定，在整个决策树中，根节点与其子节点之间信息熵的下降程度一定是最大的。

yuechuchen

2020-06-22

16.9759 2 2

多分类变量转成数值标签的时候，转成1、2、3 或者转成2、4、6，放入模型中的时候有区别吗？

如果各分类之间没有顺序关系，比如民族，血型等分类变量，可以转换成1，2，3.....，这时的1，2，3只是代码，不考虑数值本身大小的属性；如果分类之间又顺序关系，比如学历，职级等，最好不要直接转换成1，2，3这种，可以尝试独热编码。

yuechuchen

2020-06-21

16.9498 1 3

Dbscan属于什么聚类方法

DBSCAN是以密度为本的聚类算法：把某一个点附近的点分成一组，有别于知名度更高的K-Means，K-Means是基于距离的聚类算法，二者擅长的数据集不相同。

yuechuchen

2020-06-21

16.9498 1 4

K-Means算法原理及改进

1.k-means原理：第一步选取K个点作为质心；第二步计算所有样本点到所有质心的距离；第三步，把这些距离进行排序，从中找出单个样本点距离最近的质心并把该样本点划分到最近质心所代表的类中；第四步，计算得出刚聚成的各簇的真正质心；第五步重新计算所有样本点到各个新质心的距离，依次重复上述过程知道最后无论怎样迭代，所有的质心和样本点归属的类都不再发生变动，或者达到设定的最大迭代次数或者每次质心变动的量

yuechuchen

2020-06-21

17.0367 2 2

欧氏距离和曼哈顿距离

以二维的数据点为例，欧氏距离的公式为：曼哈顿距离（城市街区距离）：画个示意图：

yuechuchen

2020-06-21

28.7192 2 3

np.random.seed()的作是什么？

np.random.seed()用来指定随机数种子，固定了随机数种子即选定了随机数的生成方式，保证每次生成的随机数都是同一批数，不同电脑上用相同的随机数种子也可以生成相同的数据，需要注意的是，随机数种子需要与随机数生成函数同时运行，不能分开运行。

yuechuchen

2020-06-14

20.1335 1 4

数据进行拼接的时候，axis参数的设置，有时候选择1和-1的结果一样，这是什么原因？

对于数组来说，如果指定轴信息为-1表示选取的是最内侧的轴，如果目标数组的维度是二维，那么指定轴信息为1或者-1都是指按照两个轴中的内侧轴进行操作，索引结果也会是一样的。

yuechuchen

2020-06-14

0.0000 0 2

数据进行拼接的时候，可不可以一次性拼接多个数组

可以的，numpy中的函数，np.concatenate((a1, a2, ...), axis=0, out=None)第一个参数的意思，就是把需要拼接的数组打包到一个元组中传递给函数，需要拼接几个数组就把几个数组的名字传递进去就可以了，需要注意的是拼接的方向以及拼接数组对应维度上的元素个数是否一致。

yuechuchen

2020-06-14

20.1335 1 0

桑基图

相关系数核算

集中趋势和离散程度

总体的概念

子查询的位置应该放在哪里

having可以单独使用吗

having可以单独使用吗

事实表和维度表怎么理解

表关系及筛选方向

函数参数中出现的**kwarg是什么含义？

matplotlib中boxplot函数的参数meanline和showmeans的作用是什么

哪些因素影响决策树是否继续分支

决策树的根节点如何确定？

多分类变量转成数值标签的时候，转成1、2、3 或者转成2、4、6，放入模型中的时候有区别吗？

Dbscan属于什么聚类方法

K-Means算法原理及改进

欧氏距离和曼哈顿距离

np.random.seed()的作是什么？

数据进行拼接的时候，axis参数的设置，有时候选择1和-1的结果一样，这是什么原因？

数据进行拼接的时候，可不可以一次性拼接多个数组