宋俊花

python pandas stack和unstack函数

在用pandas进行数据重排时,经常用到stack和unstack两个函数。stack的意思是堆叠,堆积,unstack即“不要堆叠”,我对两个函数是这样理解和区分的。  常见的数据的层次化结构有两种,一种是表格,一种是“花括号”,即下面这样的l两种形式:store1store2store3street1123street2456

宋俊花

2周前

75.0867 3 0
  • 关注作者
  • 收藏

python list中append()方法和extend()方法区别

共同点只能作用于list类型(不能作用于tuple等其他类型)单参数限制(不支持多参数)不同点list.append(object) 向列表中添加一个对象object。使用append的时候,是将参数看作一个对象,整体作为一个元素打包添加到指定列表。list.extend(iterable) 把一个可迭代对象的内容迭代添加到列表中。使用extend是将一个可迭代对象中的每个元素逐个地添加到列表中,

宋俊花

2020-09-28

45.7617 2 0
  • 关注作者
  • 收藏

方差过滤只有一列的时候报错

今天的作业:当然这是题,为了让我们都练习一下,做编码做归一化,都需要把那一列单独拿出来处理,不然会对所有列做同一种处理。所以我需要单独把“婚姻”这列拿出来做,先把文字转为数字,然后方差过滤,但是报错了如果我把姓名这列也加进来,也会变为数值,但是再次方差过滤,就不报错了。查阅资料没有找到解释,个人猜测应该只有一列,删无可删了吧。

宋俊花

1月前

37.4872 1 0
  • 关注作者
  • 收藏

reshape参数中的-1的理解

感觉写作-1怪怪的,其实它表示任何的意思。1.当原始数组A[4,6]为二维数组,代表4行6列。A.reshape(-1,8):表示将数组转换成8列的数组,具体多少行我们不知道,所以参数设为-1。用我们的数学可以计算出是3行8列2.当原始数组A[4,6]为二维数组,代表4行6列。A.reshape(3,-1):表示将数组转换成3行的数组,具体多少列我们不知道,所以参数设为-1。用我们的数学可以计算出

宋俊花

1月前

66.4083 1 0
  • 关注作者
  • 收藏

​np.newaxis的作用

np.newaxis的作用就是在这一位置增加一个一维,这一位置指的是np.newaxis所在的位置。基于目前学习,我总结出它相较reshape的一个独特好处是:能对切片数据转换如:data[:,0,np.newaxis]拿出二维数组中的第一列数据,单成一列

宋俊花

1月前

66.5030 2 0
  • 关注作者
  • 收藏

scikit-learn 中 OneHotEncoder 参数之categorical_features

categorical_features = 'all',这个参数指定了对哪些特征进行编码,默认对所有类别都进行编码。也可以自己指定选择哪些特征,通过索引或者 bool 值来指定,看下例:# -*- coding: utf-8 -*-from sklearn.preprocessing import OneHotEncoder enc = OneHotEncoder(categorical_f

宋俊花

1月前

43.6847 2 0
  • 关注作者
  • 收藏

Numpy 和Pandas 在读取txt 文件时的不同

读取逗号分割的txt 文件,原文件显示如下:用numpy 读取结果如下:你会发现第一列数据M,F全变成了nan而用pandas读取格式完美,内容不会出错,而且pandas速度还快。Numpy这个问题要解决,只能加dtype参数,因为它默认都是以float格式读取

宋俊花

1月前

32.6512 2 0
  • 关注作者
  • 收藏

python 相对路径打开文件夹

之前总是省事儿把py 文件和data 文件copy到同一目录,但是不能老这样啊是不是?还是要理清这个问题。假设目录结构如下: 第一种情况:1)xxx.py想要打开a.txt,使用相对路径,有如下两种方式:思路:xxx.py想打开的是b_file下的文件,XXX.py和b_file都在文件目录之下,两者是同级目录,因此操作就是在当前目录向下搜索,因此就可以很容易理解下面的意思了特别提示:..

宋俊花

1月前

27.6048 2 0
  • 关注作者
  • 收藏

贪心算法 greedy algorithm

贪心算法(又称贪婪算法)是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,算法得到的是在某种意义上的局部最优解 。贪心算法不是对所有问题都能得到整体最优解,关键是贪心策略的选择。也就是说,不从整体最优上加以考虑,做出的只是在某种意义上的局部最优解 。贪心算法一般按如下步骤进行: ①建立数学模型来描述问题 。②把求解的问题分成若干个子问题 。③对每个子问

宋俊花

1月前

62.1755 3 0
  • 关注作者
  • 收藏

参数模型与非参数模型

参数模型、非参数模型(以及半参数模型)的概念应该源自于统计学中。统计专业中有一门课程叫做《非参数统计》,研究的对象就是秩检验、核密度估计等。在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无

宋俊花

1月前

39.8657 1 0
  • 关注作者
  • 收藏

逻辑回归为什么要对特征进行离散化

在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0. 离散特征的增加和减少都很容易,易于模型的快速迭代;1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大

宋俊花

1月前

40.3583 2 0
  • 关注作者
  • 收藏

方差分析和回归分析 异同

方差分析和回归分析总体上都属于一个类别,一般线性模型(general linear model,GLM)。从数据类型来看,方差分析的因变量是连续型数据,自变量是分类变量,一般都以组别的形式出现。回归分析的因变量是连续型数据,自变量既可以是分类数据,也可以是连续型数据,也可以两种都有。具体来说:一、方差分析与回归分析的相同点1、方差分析与回归分析的变量都是两种或两种以上。2、方差分析与回归分析的结果

宋俊花

1月前

35.3721 2 0
  • 关注作者
  • 收藏

标准差与标准误

共同点标准差和标准误都在衡量一群“小点点”的变异程度/离散程度。不同点标准差(SD)的“小点点”是仅仅某一次抽样得到的一个「样本量为N」的样本里的所有个体(单个分数)标准误(SE)的“小点点”是很多次抽样得到的很多「样本量均为N」的样本(样本的某种统计量,如平均值、回归系数等)一言以蔽之(以平均值为例,这是最简单的理解)标准差 = 一次抽样中个体分数间的离散程度,反映了个体分数对样本均值的代表性,

宋俊花

1月前

35.3721 2 0
  • 关注作者
  • 收藏

sklearn数据预处理中fit(),transform()与fit_transform()的区别

Fit(): Method calculates the parameters μ and σ and saves them as internal objects.解释:简单来说,就是求得训练集X的均值啊,方差啊,最大值啊,最小值啊这些训练集X固有的属性。可以理解为一个训练过程Transform(): Method using these calculated parameters apply

宋俊花

1月前

56.6627 2 0
  • 关注作者
  • 收藏

主成分分析保留成分(变量)设置

PCA(n_components=0.7,svd_solver = ’full’)加上参数svd_solver = ’full’如果n_components是小数位,代表留下参数的百分比, 如0.7 代表保留70%的变量如果n_components是整数位,代表留下几个变量,如2 代表留下2个变量

宋俊花

1月前

38.5549 1 0
  • 关注作者
  • 收藏

Jupyter notebook中批量注释多行代码

在jupyter notebook中批量注释多行代码(解除注释也是同样的操作):ctrl + /

宋俊花

1月前

43.1615 6 0
  • 关注作者
  • 收藏

回归算法选择汇总

基于x,y 变量类型以及多少的时候,应该选择哪种回归模型和算法:

宋俊花

1月前

126.7985 6 0
  • 关注作者
  • 收藏

Python 正则表达式

正则表达式 在线测试URL:https://tool.oschina.net/regex/

宋俊花

2月前

29.9467 1 0
  • 关注作者
  • 收藏

python 中的 type(), dtype(), astype()

函数说明type()返回数据结构类型(list、dict、numpy.ndarray 等)dtype()返回数据元素的数据类型(int、float等)备注:1)由于 list、dict 等可以包含不同的数据类型,因此不可调用dtype()函数2)np.array 中要求所有元素属于同一数据类型,因此可调用dtype()函数astype()改变np.array中所有数据元素的数据类型。备注:能用dt

宋俊花

2月前

27.6909 2 0
  • 关注作者
  • 收藏

Jupyter Notebook 安装Table of Contents 目录插件

Jupyter 记录Python笔记太好用了,但是不自带目录插件,需要单独安装:在命令行运行pip install jupyter_contrib_nbextensions下载大概10分钟安装成功后接着进行配置,运行:jupyter contrib nbextension install --user再次打开Jupyter, 看到菜单栏多了Nbextensions,点它然后把disable 前面的

宋俊花

2月前

24.4979 4 3
  • 关注作者
  • 收藏
12>