1027670370

​分词的意义

英文中用空格分开的每个词都有意义。在中文中很多情况下,多个汉字才能表达一个意义。例如: "苹果很好吃" 这句话中,“苹果” 这两个汉字联合起来才表达了“苹果”这个可以吃的东西。中文分词就是把句子按照词进行切分。 分词是很多中文自然语言处理的基础,很多文本挖掘都是基于词的基础上进行的,例如:文本分类、聚类、规则系统。•结巴分词是一款优秀的开源R和python分词工具,结巴分词具有以下特点: • 1)

1027670370

2020-11-10

32.8859 4 0
  • 关注作者
  • 收藏

文本分析

1027670370

2020-11-10

32.8859 4 0
  • 关注作者
  • 收藏

R语言研究概率分布

众所周知, 概率论早期研究的是游戏或赌博等随机现象中有关的概率问 题. 这些现象在R中可以通过函数sample( )来实现.1) 等可能的不放回的随机抽样:> sample(x, n)其中x为要抽取的向量, n为样本容量. 例如从52张扑克牌中抽取4张对应 的R命令为:> sample(1:52, 4) [1] 3 16 17 152) 等可能的有放回的随机抽样:> sample(x, n, re

1027670370

2020-09-16

36.2132 5 0
  • 关注作者
  • 收藏

外部数据的读取与保存

getwd() #查看工作路径 dir()#查看工作路径中存储的文件信息 文件--->更改工作路径#更改工作路径 (1)文本文档文件的读取:‍‍ read.table(file="数据.数据类型",header=T,sep=””) str()#浏览存储类型和结构信息 names()#查看数据框的各域名 head()#前六行 > str(A)

1027670370

2020-08-25

123.2105 9 0
  • 关注作者
  • 收藏

数据框的创建和访问

数据框也是一张二维表格,行和列在统计上分别称为观测和变量,计算机上分别称为记录和域。变量名的对应称谓是域名,变量值对应域值 创建数据框 data.frame(域名1=向量名1,域名2=向量名2,….) names(数据框名)‍ 访问数据框 数据框名$域名、数据框名[[“域名”]]、数据框名[[域编号]] attach函数和detach函数、with函

1027670370

2020-08-23

118.2089 8 0
  • 关注作者
  • 收藏

统计是什么?

统计是处理数据的一门科学。人们给统计学下的定义很多,比如,“统计学是收集、分析、表述和解释数据的科学”;“统计是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论”。综合地说,统计学(statistics)是收集、处理、分析、解释数据并从数据中得出结论的科学。统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释并从数据中得出结论的方法,

1027670370

2020-08-23

38.1193 6 0
  • 关注作者
  • 收藏

高级数据结构

‍ R的数据对象有哪些类型 从存储角度划分R对象:数值型、字符型、逻辑型 从结构角度划分R对象:向量(vector)、矩阵(matrix)、数组(array)、数据框(data frame)、列表(list) 数组以三维方式组织数据,是矩阵的扩展形式。可将数组视为多张二维表格罗列而成的“长方体”。表格的行列数分别对应长方体的长和宽,表格的张数对应长方体的

1027670370

2020-08-21

121.3309 7 0
  • 关注作者
  • 收藏

统计数据的整理

一、统计数据整理 统计数据整理是统计数据调查的继续和数据分析的前提,是感性认识上升到理性认识的连接点。数据整理的前提是审核,分组汇总是核心。按品质变量分组的关键是界定各类型组的性质差异,按数值变量分组的关键是正确确定各组的数量界限,即组数与组限。 二、统计分组 统计分组必须遵循穷尽性和互斥性两个原则。数值变量分组有单项式和组距式两种。组距式分组又有离散型与连

1027670370

2020-08-21

41.4053 6 0
  • 关注作者
  • 收藏

矩阵的创建和访问

访问矩阵 访问指定位置上的元素 矩阵名[行位置常量,列位置常量]、矩阵名[行位置常量1:行位置常量2,列位置常量1:列位置常量2]、矩阵名[c(行位置常量列表), c(列位置常量列表)] 访问指定行上的所有元素 head(矩阵名,n)、tail(矩阵名,n) 矩阵名[行位置常量,]、矩阵名[行位置常量1:行位置常量2,]、矩阵名[c(行位置常量列表),]、矩阵名[行位

1027670370

2020-08-20

109.9993 5 0
  • 关注作者
  • 收藏

分配数列

(一)概念 在统计分组的基础上,可以将总体的所有单位按某一标志进行归类排列,并计算其相应出现的次数,这样得到的分布称为分配数列或次(频)数分布数列。 (二)分配数列的构成要素 组别:各组名称 次数(频数):分布在各组的总体单位数。各组的次数(频数)之和等于总体单位总数。 频率(比重):各组次数占总次数的比重各组比重之和等于100%(或1

1027670370

2020-08-20

29.9993 4 0
  • 关注作者
  • 收藏

R语言矩阵的创建

由单个向量派生矩阵 matrix(向量名,nrow=行数,ncol=列数,byrow=TRUE/FALSE,dimnames=list(行名称向量,列名称向量)) 按列排) > m<-matrix(c(1,2,3,4,5,6),nrow=2,ncol=3) > m [,1] [,2] [,3] [1,] 1 3 5 [2,]

1027670370

2020-08-18

27.9443 7 5
  • 关注作者
  • 收藏

统计整理和统计分组

一、数据整理的概念和作用 (一)概念 对统计调查所搜集到的原始数据进行分类和汇总,使其系统化、条理化、科学化,以得出反映事物总体综合特征的资料的工作过程,称为汇总性整理。 (二)作用 统计数据整理,是统计调查的继续,也是统计分析的前提,承前启后,在整个统计工作中具有重要的作用。‍ 二、统计整理的内容/程序 1.数据整理方案的设计 2.数据

1027670370

2020-08-18

27.9443 7 5
  • 关注作者
  • 收藏

流量

众所周知,流量在电商平台是排在第一位的,因为客流量是基础。大,中,小或新开张的商家每天都在追求流量的增长。 但是电商平台的流量红利窗口一定是有限的,所以精细化运营一定是一个必然的结果。 对于流量,应通过了解每种渠道和每种类型流量来源的特质,才可能实现流量的最大利用从而可以挖掘出每一位到店访客的消费价值。 所以在帮助运营及市场人员制定高效的市场投放计划时,要展现以往不同渠道在不同时

1027670370

2020-08-17

24.4979 7 6
  • 关注作者
  • 收藏

数据图表开始前的处理。

一.数据的预处理:是在对数据分类或分组前所做的必要处理,内容包括数据的审核,排序,筛选等。 数据的审核:就是检查数据中是否有错误。对于调查取得的原始数据主要从完整性与准确性两个方面进行审核。完整性的审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否齐全等。准确性审核主要是检查数据是否有错误,是否存在异常值等。 数据的筛选:是根据需要找出符合特定条件的某类数据。

1027670370

2020-08-17

32.3009 7 2
  • 关注作者
  • 收藏

动态数列分析即时间序列

把对经济现象在不同时间上的数量进行对比,以了解现象变化速度和规律,并据此预测未来的方法就是动态分析法。 把反映某种现象的同一指标在不同时间上的指标数值按时间先后顺序编排所形成的数列称为动态数列或时间数列。 动态数列的种类:1.总量指标:把总量指标在不同时间上的数值按时间先后顺序排列而形成的动态数列。反映了社会经济现象在不同时间上所达到的绝对水平及其发展变化的过程。

1027670370

2020-08-17

32.3009 7 2
  • 关注作者
  • 收藏