数据科学专业问答社区，好文章，一字千金--CDA答疑社区

数据可视化小tip——直方图

直方图：区间宽度并不是都相同的，频数和每个长方形的面积成比例。如下数据：错误案例：正确是案例：中间隐藏了一步，求解频数密度：要点：频数密度是指分组数据中频数的密集度。频数密度=频数/组距直方图是专门体现分组数据的图形，形似条形图，但高度等于频数密度——而不是频数。直方图每个长方形的宽与其分组宽度成正比。长方形按照连续数字标度绘制。直方图中每个组的频数通过长方形面积求出。直方图中长方形之间无间隔。直

anranhui

2020-06-26

54.4034 4 1

共线性的损失函数图像？

共线性的损失函数图像是底部被截取？？

anranhui

2020-06-24

29.9102 3 4

【机器学习】多分类学习的拆分策略

现实中常遇到多分类学习任务。有些二分类学习方法可直接推广到多分类，但在更多情形下，我们是基于一些基本策略，利用二分类学习器来解决多分类问题。所以多分类问题的根本方法依然是二分类问题。考虑N个类别C1，C2 …，CN，多分类学习的基本思路是“拆解法”即将多分类任务拆为若干个二分类任务求解。具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器。在测试时，对这些分类器的预测结果进行集成以

anranhui

2020-06-24

29.9105 4 2

为什么损失函数是MSE的时候，使用梯度下降法最好。

我们要求解函数的最优解，当不易求解时就选择反方向思路，构造一个损失函数，来求取损失函数的最小值。损失函数可求导后为凸函数时，则可以直接等于0，求解最小值。损失函数可求导后不是凸函数时，则需要使用梯度下降法，因此梯度下降法需要损失函数可求导。为什么说损失函数MSE比SSE更加适合使用梯度下降法呢，SSE则是没有除样本n，那么当样本量大的时候，梯度值算出的也比较大，步长就要尽量小。选择步长时就更加敏感

anranhui

2020-06-24

31.1784 5 2

markdown支持的语法规则

markdown是一个强大的文本编辑器。可以编辑具有印刷品质的出版物。下面我们来介绍markdown支持的语法规则：需要注意：#号和文字之间需要有空格。三个减号运行后为分隔符。引用具有嵌套关系。如图，“鲁迅” 是嵌套在 “确实是我说的” 里面。符号均为英文下的符号。需要文档的请私聊我，，，现在这个版本上传不了。。。就用百度文档吧。。链接：https://pan.baidu.com/s/103Z62

anranhui

2020-06-22

25.5260 5 5

修改jupyter notebook的工作目录

首先anaconda powershell prompt中输入：F: ——进入F盘然后输入：dir——查看F盘所有文件输入：cd"Jupyter notebook"——进入到Jupyter notebook中，输入：Jupyter notebook由此，电脑就给我们分配了一个8889端口。在8889端口下面我们就进入了我们新建的并行的jupyter 服务。服务所在的目录就是我们所在的目录。我们可

anranhui

2020-06-21

40.3887 5 3

anaconda中的conda常见命令使用

conda常见命令使用查看当前环境下已安装的包conda list查找package信息conda search requsts安装packageconda install requests更新packageconda update requests删除packageconda remove requests更新conda保持conda最新conda update conda更新anacondac

anranhui

2020-06-20

27.7483 4 1

anaconda介绍

可能那你会使用anaconda进行各种各样的数据处理，建模，但是你真的了解anaconda吗？各种搜罗来的咨询都会说anaconda是python的发行版。发行版？？一脸懵，anaconda通俗来说就是各种包的集合，里面预装有conda，某个版本的python，众多的packages、科学技术工具，例如爬虫所需的requests包，os包，正则re包，科学计算numpy，pandas包，神经网络，

anranhui

2020-06-20

27.7181 3 2

python包依赖关系

scipy: numpy+mkl matplotlib: numpypandas: numpy, setuptoolsscikit-leanr: numpy+mklcaffe：numpy,scikit-imageopencv：numpy以树结构形式列出了已安装包的主依赖包与各主依赖包的子依赖包，可读性好，一目了然详情。在网上找到一款可以方便查看 Python 已安装包的依赖树信息查看工具 pipd

anranhui

2020-06-20

27.4161 3 1

markdown简介

Markdown是一种可以使用普通文本编辑器编写的标记语言，通过简单的标记语法，它可以使普通文本内容具有一定的格式。 Markdown具有一系列衍生版本，用于扩展Markdown的功能（如表格、脚注、内嵌HTML等等），这些功能原初的Markdown尚不具备，它们能让Markdown转换成更多的格式，例如LaTeX，Docbook。Markdown增强版中比较有名的有Markdown

anranhui

2020-06-20

27.6238 3 2

python--os.chdir() 切换当前工作路径

import os, sys path = "learn-to-pack" # 查看当前工作目录 retval = os.getcwd() print("当前工作目录为 %s" % retval) # 修改当前工作目录 os.chdir( path ) # 查看修改后的工作目录 retval = os.getcwd() print("目录修改成功 %s" % retval)python-

anranhui

2020-06-19

22.8541 3 3

决策树中经常用熵作为判别条件而不是基尼不纯度？基尼不纯度是什么？

绝大部分情况下熵（entropy）和基尼指数（Gini Index）在决策树节点分裂时做出的决策都是等价的。先看一下如何定义节点分裂时的不纯度函数（impurity）有三种（假设有k个类别）：不难看出，三个函数均为凸函数。只不过误分率（函数1）是分段线性函数（piece-wise linear），有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段，它们的优势如下：二者

anranhui

2020-06-18

14.4630 4 2

树算法：ID3，C4.5，C5.0和CART¶的相互关系

ID3（迭代二分法3）由Ross Quinlan于1986年开发。该算法创建多路树，为每个节点（即，以贪婪的方式）找到分类特征，该分类特征将为分类目标产生最大的信息增益。将树长到最大大小，然后通常应用修剪步骤以提高树概括未见数据的能力。 C4.5是ID3的后继版本，并通过动态定义离散属性（基于数字变量）来消除要素必须分类的限制，该离散属性将连续属性值划分为离散的间隔集。C4.5将训练后的树（即

anranhui

2020-06-18

14.3059 2 4

决策树的优缺点

决策树（DT）是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过学习从数据特征推断出的简单决策规则来预测目标变量的值。决策树的一些优点是：易于理解和解释。树木可以可视化。需要很少的数据准备。其他技术通常需要数据规范化，需要创建伪变量并删除空白值。但是请注意，此模块不支持缺少的值。使用树的成本（即预测数据）与用于训练树的数据点数量成对数。能够处理数字和分类数据。其他

anranhui

2020-06-18

14.3059 2 0

python中通过 \ 换行，分号进行多条语句

A=1;B=2;C=3 ##通过\整体化 total= A \ B \ C total 用 ; (分号)实现多行语句处于同一行，使用 \ 使得同一语句进行换行。

anranhui

2020-06-14

20.3267 2 1

查询python关键字，import keyword

本文在 anaconda 中的 jupyter notebook 中实现 import keyword ##导入第三方库 print(keyword.kwlist) ##打印python的关键字

anranhui

2020-06-14

20.3267 2 3

绝对距离，欧氏距离，切比雪夫距离，闵氏距离

闵氏距离闵氏空间指狭义相对论中由一个时间维和三个空间维组成的时空，为俄裔德国数学家闵可夫斯基(H.Minkowski,1864-1909)最先表述。他的平坦空间（即假设没有重力，曲率为零的空间）的概念以及表示为特殊距离量的几何学是与狭义相对论的要求相一致的。闵可夫斯基空间不同于牛顿力学的平坦空间。阿尔伯特·爱因斯坦在瑞士苏黎世联邦科技大学(Eidgen?ssische Technische H

anranhui

2020-06-13

32.1880 5 3

什么是鲁棒效应

鲁棒是baiRobust的音译，也就是健壮和强壮的意思。鲁棒du性（robustness）就是系zhi统的健壮性。它是在异常和危dao险情况下系统生存的关键。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。所谓“鲁棒性”，是指控制系统在一定（结构，大小）的参数摄动下，维持某些性能的特性。根据对性能的不同定义，可分为稳定鲁棒性和性能鲁棒性。

anranhui

2020-06-13

16.6784 3 1

通俗易懂地讲解什么是 PCA 主成分分析？

主成分分析（Principal Component Analysis，PCA），主要用于数据降维。首先说一下什么是降维，字面意思就是降低数据的维数，而数据维数也可简单理解为列的个数，比如我们有一组数据如下：这就是二维数据，我们可以通过主成分分析降维成一维数据。现在就让我们说说是如何把二维降一维的。可以从散点图看出两者完全正相关，因此有一列其实是多余的，所以我们要进行降维：其中的一列数据房价。这种一

anranhui

2020-06-13

0.2064 1 0

主成分分析——解析几何方向介绍

详情介绍地址——https://wenku.baidu.com/view/041755a4302b3169a45177232f60ddccdb38e6ec.html 简介：本文介绍可能涉及一些数学中的线性变换知识。

anranhui

2020-06-12

12.9647 4 4