获取DataFrame中两个选定列之间的相关性

啊啊啊啊啊吖

2019-03-14 阅读量: 665

数据分析师 Python数据分析

获取DataFrame中两个选定列之间的相关性

扫码加入数据分析学习群

我正在使用一个大的DataFrame。但我试图获得两列之间的相关性。我用过这段代码：

corr_P=Top15['Energy Supply per Capita'].corr(Top15['Energy Supply per Capita'])

它给我一个错误说：

'sqrt' method is not available for 'float' type.

这是一个我必须使用“.corr（）方法，（Pearson的相关性）”的分配。

解决办法：我在同一个数据集上试用了你的代码并且没有错误。我很好奇你正在使用什么版本。

另外，我假设您希望看到2列（相同列）的相关性。如果我运行它，它会给出正确的输出1

import pandas as pd

import numpy as np

import re

def split_it(line):

line = re.split('(\d+)', line)

return line[0]

def get_energy():

energy = pd.read_excel('C:/Energy Indicators.xls', skiprows = 17, skip_footer = 38, parse_cols = range(2, 6), index_col = None, names = ["Country", "Energy Supply", "Energy Supply per Capita", "% Renewable"], na_values='...')

energy['Energy Supply'] = energy['Energy Supply'] * 1000000

energy['Country'] = energy["Country"].apply(split_it)

energy = energy.replace ("Republic of Korea", "South Korea")

energy = energy.replace("United States of America", "United States")

energy = energy.replace('United Kingdom of Great Britain and Northern Ireland' , 'United Kingdom')

energy = energy.replace('China, Hong Kong Special Administrative Region', 'Hong Kong')

energy['Country'] = energy['Country'].apply(lambda x: re.sub(r'\(.*\)', '', x))

# energy.Country = energy.Country.apply(lambda x: x.split(' (')[0])

energy['Country'] = energy['Country'].map(lambda x: x.strip())

return energy

Top15 = get_energy()

corr_P = Top15['Energy Supply per Capita'].corr(Top15['Energy Supply per Capita'])

11.0571 1 0 踩关注作者收藏

暂无数据

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

社区公告

获取DataFrame中两个选定列之间的相关性

评论(0)

推荐课程

推荐帖子

LangChain.zip ,LangChain.zip data_clear.rar 很奇怪, 有三个资料包Q群下载不了也转发不了

SQL 语言分类(CDA SQL打卡学习第一次学习笔记)

时间序列回归模型！

我想在区分大小写的情况下判断第二列的内容是否在第一列中有出现,以及出现了多少次,在Excel如何实现?

获取DataFrame中两个选定列之间的相关性

评论(0)

推荐课程

推荐帖子

LangChain.zip ,LangChain.zip data_clear.rar ​很奇怪, 有三个资料包Q群下载不了也转发不了

SQL 语言分类(CDA SQL打卡学习第一次学习笔记)

时间序列回归模型！

我想在区分大小写的情况下判断第二列的内容是否在第一列中有出现,以及出现了 多少次,在Excel如何实现?

LangChain.zip ,LangChain.zip data_clear.rar 很奇怪, 有三个资料包Q群下载不了也转发不了

我想在区分大小写的情况下判断第二列的内容是否在第一列中有出现,以及出现了多少次,在Excel如何实现?