小懒爱科比

2020-06-28   阅读量: 1050

大数据 python

python的学习内容和概述

扫码加入数据分析学习群

分享自老师~


〇、数据基础

1. 高等数学

求导,链式法则,凸优化,梯度,KKT条件,泰勒公式

2. 线性代数

全部(矩阵运算,特征值和特征向量),矩阵分解,矩阵论

3. 概率统计

条件概率,线性回归,常见几种分布,最大似然估计,隐马尔科夫模型(HMM),条件随机场(CRF)

4. 信息论

信息熵

一. 数据分析

1. python语言(Anaconda软件:jupyter notebook+spyder+一系列的库)

python版本:3.7

用途:数据分析和人工智能,运维(shell,awk,sed,python),web,游戏

2. numpy科学计算库

3. pandas数据分析库

4. 可视化库

小可视化:matplotlib,seaborn,pycharts

大可视化:powerbi,tableau

5.网络爬虫

二、机器学习(结构化数据, scikit-learn库)

0、机器学习基础

有监督学习/无监督学习

分类和回归

训练集,测试集,验证集

数据预处理和特征工程

网格搜索和学习曲线

欠拟合,过拟合,正则化

代价函数/损失函数

泛化性能-偏差,方差和误差

分类打分:准确率/召回率/F1/roc/ruc

回归打分:r^2,mse,rmse,mae

1. 有监督学习

回归(连续型)

线性回归,决策树回归,SVR,集成学习回归

分类(离散型)

逻辑回归,决策树分类,KNN, 贝叶斯,SVC,神经网络,集成学习(bagging,boosting,stacking,voting,随机森林,gbdt,xgboost,lightgbm)

案例

竞赛:国内天池,国外kaggle

2. 无监督学习

聚类:kmeans,dbscan

3. 推荐系统

关联规则

协同过滤

基本内容

SVD分解

隐语义模型

三、深度学习(非结构化数据:图像,语音,文本,视频,tensorflow,pytorch)

1. 卷积神经网络(图像)

2. 图像/视频预处理

数据来源:摄像头,传感器,手机

图像预处理:pil,opencv

图像分类:imagenet模型

目标检测

图像分割

场景文字识别

图像生成

视频分类

3.语音

4.文本(nlp,自然语言处理)

中文分词,聚类,分类


四、大数据

1. Hadoop, Spark大数据平台框架, linux集群

2. HDFS分布式文件系统

3. MapReduce(java,python) ,spark core

4. Hive sql spark sql

5. hadoop机器学习库, spark的机器学习库(mllib)

数据分析,人工智能,数据挖掘,机器学习,python, 机器学习算法的关键字


招聘网站: liepin.com, zhipin.com, zhaopin.com lagou.com等

kanzhun.com


24.8114 6 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子