桑基图,全称桑基能量分流图,也叫桑基能量平衡图。其明显的特征是,始末端的分支宽度总和相等,即所有主支宽度的总和应与所有分出去的分支宽度的总和相等,保持能量的平衡。
yuechuchen
2022-07-23
集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。衡量分类数据集中趋势常用众数;衡量顺序数据集中趋势常用中位数和分位数;衡量数值型数据集中趋势常用平均数。离散程度是衡量数据分布的另一个重要特征,它反映的是个变量值远离其中心值的程度。衡量分类数据离散程度的是异众比率;衡量顺序数据离散程度的是四分位差;衡量数值型数据离散程度的是方差和标准差;数据的离散程度越大,集中趋势的测
yuechuchen
2022-07-22
事实表可以理解成业务发生的记录表,表中会有数量、金额等字段维度表可以理解成对数据进行分析时需要用到的一些角度,表中不会记录具体的交易数量及金额等信息
yuechuchen
2022-07-21
答案是C,因为与orderinfo有关联关系的表中,只有orderinfo和oderdetail是一对多的关系,orderinfo是1表,oderdetail是多表,1表筛选多表,所以选择答案C
yuechuchen
2022-07-21
在函数的参数中 :*arg表示收集位置参数,意味着该参数可以接收不限制数量的位置参数;**kwarg表示收集关键字参数,意味着该参数可以接收不限制数量的关键字参数。
yuechuchen
2020-06-22
matplotlib中的箱线图在绘图过程中默认显示数据集的中位数线,均值线默认不显示,通过设置meanline=True和showmeans=True可以令箱线图在显示中位数线的同时显示均值线
yuechuchen
2020-06-22
决策树是否分支,一般有以下几种情况:1、所有叶节点的纯度都达到了百分之百;2、该节点上样本数量小于参数设置的可继续分支的最小样本数量;3、该节点分支后的信息增益小于指定的最小信息增益;4、决策树生长到了规定的最大树深,决策树停止分支
yuechuchen
2020-06-22
如果各分类之间没有顺序关系, 比如民族,血型等分类变量,可以转换成1,2,3.....,这时的1,2,3只是代码,不考虑数值本身大小的属性;如果分类之间又顺序关系,比如学历,职级等,最好不要直接转换成1,2,3这种,可以尝试独热编码。
yuechuchen
2020-06-21
DBSCAN是以密度为本的聚类算法:把某一个点附近的点分成一组,有别于知名度更高的K-Means,K-Means是基于距离的聚类算法,二者擅长的数据集不相同。
yuechuchen
2020-06-21
1.k-means原理:第一步选取K个点作为质心;第二步计算所有样本点到所有质心的距离;第三步,把这些距离进行排序,从中找出单个样本点距离最近的质心并把该样本点划分到最近质心所代表的类中;第四步,计算得出刚聚成的各簇的真正质心;第五步重新计算所有样本点到各个新质心的距离,依次重复上述过程知道最后无论怎样迭代,所有的质心和样本点归属的类都不再发生变动,或者达到设定 的最大迭代次数或者每次质心变动的量
yuechuchen
2020-06-21
np.random.seed()用来指定随机数种子,固定了随机数种子即选定了随机数的生成方式,保证每次生成的随机数都是同一批数,不同电脑上用相同的随机数种子也可以生成相同的数据,需要注意的是,随机数种子需要与随机数生成函数同时运行,不能分开运行。
yuechuchen
2020-06-14
对于数组来说,如果指定轴信息为-1表示选取的是最内侧的轴,如果目标数组的维度是二维,那么指定轴信息为1或者-1都是指按照两个轴中的内侧轴进行操作,索引结果也会是一样的。
yuechuchen
2020-06-14
可以的,numpy中的函数,np.concatenate((a1, a2, ...), axis=0, out=None)第一个参数的意思,就是把需要拼接的数组打包到一个元组中传递给函数,需要拼接几个数组就把几个数组的名字传递进去就可以了,需要注意的是拼接的方向以及拼接数组对应维度上的元素个数是否一致。
yuechuchen
2020-06-14