读童话的狼

随机森林中的两个随机过程

在整个随机森林算法的过程中,有两个随机过程数据随机化:输⼊数据是随机的⼀部分属性随机化:每棵决策树的构建所需的特征是从整体的“特征集”随机选取的。这两个随机过程使得随机森林很⼤程度上避免了过拟合现象的出现。

读童话的狼

1天前

35.4363 2 0
  • 关注作者
  • 收藏

集成算法中的bootstrap抽样

bootstrap也称为⾃助法,它是⼀种有放回的抽样⽅法,⽬的为了得到统计量的分布以及置信区间,其算法过程如下:A)从原始样本集中抽取训练集。每轮从原始样本集中使⽤Bootstraping的⽅法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,⽽有些样本可能⼀次都没有被抽中)。共进⾏k轮抽取,得到k个训练集。(k个训练集之间是相互独⽴的)B)每次使⽤⼀个训练集得到⼀个模型, k个训练集共得到

读童话的狼

1天前

35.2991 2 0
  • 关注作者
  • 收藏

决策树里没有采样的步骤,为什么sklearn的DecisionTreeRegressor中还有随机因子random_state?

这个问题是因为,学习一个最优决策树是一个NP问题。 所以实际应用中,生成决策树是基于启发式算法的,比如贪婪算法,贪婪算法可以在每个节点进行局部最优点求解,但它无法保证返回全局最优解。不论是random forest还是decision tree,贪婪算法会随机且多次抽取部分特征和样本,这个随机抽取过程可以通过random_state来决定。

读童话的狼

3天前

38.6003 1 0
  • 关注作者
  • 收藏

MinMaxScaler转换特征时报错:Expected 2D array, got 1D array instead:

这个错误是因为传入了一维序列,当需要转换某一列特征时使用scaler.fit_transform(data["列名"])就会提示上述错误,使用scaler.fit_transform(data[["列名"]])就不会报错了,如:

读童话的狼

1周前

62.6600 3 0
  • 关注作者
  • 收藏

随机森林中的oob误差估计

一个大小为N的数据集D. 对数据集随机有放回抽样N次作为一棵CART树的训练集.根据概率论,可知数据集中有大约1/3的数据是没有被选取的(称为Out of bag),所以就是这没被选取的部分作为小树的测试集.数据集D中的每一个样本都可以拿来做测试数据, 对于一个样本d, 森林中大约有1/e树是OOB的, 那么这1/e的树就构成了预测样本d的森林,用简单投票法计算分类结果. 从而得到总的error.

读童话的狼

1周前

35.9124 1 0
  • 关注作者
  • 收藏

jupter里面可以选一个关键字,其他关键字也高亮显示,这个是怎么弄的?

首先需要安安装下目录插件,步骤如下:1,安装 jupyter_contrib_nbextensions pip install jupyter_contrib_nbextensions 2,配置 nbextension jupyter contrib nbextension install --user3,启动jupyter notebook 选择 Nbextensions 勾选 Highli

读童话的狼

1周前

31.6352 2 0
  • 关注作者
  • 收藏

如何查看某个python包的源码?

anaconda中集成了许多日常使用的包,包的源码也储存在本地文件夹中,怎么找到某个包的源码,可以用这个办法1.在jupyter中导入需要查看的包(如numpy),运行numpy.__file__可以得到这个包的本地源文件2.按照面的路径就可以找到相关的源码

读童话的狼

1周前

31.6352 2 0
  • 关注作者
  • 收藏

anaconda如何安装scikit-surprise推荐算法库?

Surprise是一个基于Python scikit构建和分析推荐系统但是安装却不是那么容易,pip 安装会提示缺少microsoft Visual C++ 14.0,可以利用conda安装conda安装scikit-surprise用这个命令,也就是后面指定镜像conda install -c conda-forge scikit-surprise --channel https://mirro

读童话的狼

1周前

31.6352 2 0
  • 关注作者
  • 收藏

字符串的切片中,起始位置的值大于终止位置的值是否一定返回空值?

字符串的切片是受起始位置,终止位置,步长三个参数控制的即使起始位置的值大于终止位置的值,步长为负数时也是可以不返回空值的

读童话的狼

1周前

31.6352 2 0
  • 关注作者
  • 收藏

.join()怎么连接多个字符串?

join() 方法是非常重要的字符串方法,它是 split() 方法的逆方法,用来将列表(或元组)中包含的多个字符串连接成一个字符串。这里注意的是:Join里面是列表如果为单个字符串,则会依次拼接每个单个字符

读童话的狼

1周前

34.3731 3 0
  • 关注作者
  • 收藏

np.random.normal((6,1))这个函数里的(6,1)是指什么,输出为什么是2个值?

numpy.random.normal(loc=0.0, scale=1.0, size=None)参数意义:loc:float 此概率分布的均值(对应着整个分布的中心centre)scale:float 此概率分布的标准差(对应于分布的宽度,scale越大越矮胖,scale越小,越瘦高)size:int or tuple of ints 输出的shape,默认为None,只输出

读童话的狼

1周前

34.3731 3 0
  • 关注作者
  • 收藏

什么是独热编码

OneHotEncoder 原理是将有n个类别的特征转换成n个二分特征属性,值取为0或1。因此,One-Hot Encoder是会根据特征取值的类别改变数据特征数目的,因为扩展了特征的个数,并返回二值类别数值,势必会造成数据的稀疏问题. 举一个常用的例子,我们想要研究的类别取值为小学、中学、大学、硕士、博士的特征,我们使用one-hot对其编码就会得到:

读童话的狼

2周前

68.3697 3 0
  • 关注作者
  • 收藏

怎么理解代价函数和梯度下降法的关系

代价函数本质来说就是用来表示拟合函数的理想输出与实际输出之间的差距的一种函数。也就是说差距越大,算法学习的代价也就越大,所以梯度下降法的本质也就是不断地优化代价函数。梯度下降算法的核心在于梯度两个字,而求梯度的意思实际上就是对代价函数求偏导,然后用我们求得的导数去更新我们的拟合参数。

读童话的狼

2周前

33.6424 2 0
  • 关注作者
  • 收藏

MySQL中having必须要跟groupby之后吗?

在SQL中,我们常说having要跟在groupby后,对分组结果进行筛选,在实际使用中,发现直接使用having也是可以的,这是因为当我们单独使用having时相当于对每行数据进行筛选,此时的用法与where是一样的

读童话的狼

2周前

32.2621 3 0
  • 关注作者
  • 收藏

python中调用Queue怎么总是报错?

这是因为包名字应该是queue,首字母写成大写之后无法识别queue 是标准库,不需要安装,直接import 使用。

读童话的狼

2周前

32.3091 3 0
  • 关注作者
  • 收藏

SQL中的case when与纵横表转换

SQL中的CASE WHEN用法其语法如下:1)case vlaue when [compare-value]then reslut [when[compare-value]] then result ...] [else result] end(2)case when [condition] then result [when[condition]then result...][else res

读童话的狼

2周前

75.0913 2 0
  • 关注作者
  • 收藏

如果字段A有分类编码,查的时候怎么才能在内容里展示名称而不是编码呢?

这个操作也十分的简单,如:我们想要shengfu为胜的返回1,而负返回0,可以用if函数来实现

读童话的狼

2周前

75.0913 2 0
  • 关注作者
  • 收藏

Kaggle是什么?

Kaggle 是一个流行的数据科学竞赛平台。由 Goldbloom 和 Ben Hamner 创建于 2010 年(官网地址:Your Home for Data Science)。在这个平台上,企业和研究者可在其上发布数据和问题,并提供奖金给能解决问题的人。多个数据分析相关的能人志士在其上进行竞赛以产生最好的模型来解决问题。进而使数据科学成为一场运动。这就好比,金庸小说里的华山论剑,吸引了江湖各

读童话的狼

2020-09-02

35.0672 3 0
  • 关注作者
  • 收藏

MySQL面试题:查询每个日期的胜负次数

record表结构如下:请用SQL实现以下结果create table record(time0 datetime,shengfu varchar(10));insert into record(time0,shengfu)values('2015-01-12 00:00:00.000','胜'),('2016-12-09 00:00:00.000','负'),('2013-05-22 00:00

读童话的狼

2020-09-01

42.9290 5 0
  • 关注作者
  • 收藏

监督学习和无监督学习有什么区别?

监督学习:对具有标记(分类)的训练样本进行学习,这里,所有的标记(分类)是已知的。如:决策树算法、朴素贝叶斯算法、KNN 算法。无监督学习:对没有标记(分类)的训练养样本进行学习,目的是为了发现训练集中的结构特征。这里,所有的标记(分类)是未知的。如:聚类算法。

读童话的狼

2020-09-01

42.6606 3 0
  • 关注作者
  • 收藏
12343>