数据科学专业问答社区，好文章，一字千金--CDA答疑社区

如何在Linux里面安装plotly

我们要想在Linux里面安装plotly，执行命令：pip install plotly -i https://pypi.tuna.tsinghua.edu.cn/simple 即可安装完成

我是大魔王哈哈

2020-08-21

30.1000 2 0

一般来说数据量达到什么级别，我们开始使用大数据技术

数据量上TB以后，传统的数据集性能达到了瓶颈，只能靠扩充硬件来完成很多数据仓库的查询，而且查询速度慢如果多人共用的话很更慢，垂直扩展硬件是有局限性的，这时我们就会考虑开始使用大数据技术hadoop，hadoop系统的好处可以线性增加机器，而且是廉价的机器，成本很低，也能完成传统数据仓库的查询和统计，费用低，硬件便宜

我是大魔王哈哈

2020-08-13

47.5499 3 5

Exception in thread "main" java. lang. Runt imeException: core-site.xml not found

执行 hdfs dfs -ls / 命令时出现如上图中错误，这是环境变量的问题解决方法：执行命令：vi /etc/profile并在里面添加：export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop之后重启hadoop即可

我是大魔王哈哈

2020-08-11

22.2056 6 5

简述一下integer是什么意思？

Java为每个原始类型提供了封装类，Integer是java为int提供的封装类int的默认值为0，而Integer的默认值为null

我是大魔王哈哈

2020-08-07

37.6531 4 1

create 'nsl:tb1' ,'cf1'中的 cf1 代表什么意思

create 'nsl:tb1' ,'cf1' 这是Hbase中创建表的语句 nsl代表命名空间，tb1代表表名，cf1代表列族

我是大魔王哈哈

2020-08-06

32.0802 2 0

在浏览器上访问zeppelin出现：HTTP ERROR 503

访问zeppelin时发生如下图中的错误，我们检查之后发现zeppelin的启动和配置都没有问题，这时我们应该多刷新网页因为可能是有延迟的原因，或者我们可以重启zeppelin之后再刷新网页我们发现尝试了上述方法之后，就可以正常访问zeppelin了

我是大魔王哈哈

2020-08-05

0.0759 1 0

在Zeppelin中怎么上传文件？

在浏览器中打开Zeppelin之后，点击 import note选项，如上图所示：之后点击Select JSON File选项就可以上传文件了，如下图所示：

我是大魔王哈哈

2020-08-02

29.2503 2 0

在浏览器上无法访问zeppelin

我们先查看是否启动了zeppelin服务，如下图所示我们并没有启动zeppelin服务解决方法：先启动Hadoop：start-all.sh 再启动zeppelin: zeppelin-daemon.sh start我们可以看到在浏览器上已经可以访问到zeppelin了

我是大魔王哈哈

2020-07-29

30.7919 5 0

怎样在hive命令行中显示出table的列名？

要想在hive的命令行中显示出hive的列名，我们需要在hive-site.xml文件中添加如下配置信息:

我是大魔王哈哈

2020-07-24

41.3722 4 3

1.查询语言不同：hive是hql语言，mysql是sql语句； 2.数据存储位置不同：hive是把数据存储在hdfs上，而mysql数据是存储在自己的系统中； 3.数据格式：hive数据格式可以用户自定义，mysql有自己的系统定义格式； 4.数据更新：hive不支持数据更新，只可以读，不可以写，而sql支持数据更新； 5.索引：hive没有索引，因此查询数据的时候是通过mapreduce很暴力

我是大魔王哈哈

2020-07-22

26.3330 6 3

hduser is not in the sudoers file

出现如下图中所示错误信息的原因：是因为我们没有给hduser用户赋予sudo权限解决方案：vi /etc/sudoers 找到 root ALL=(ALL) ALL 这行在它的下面添加：hduser ALL=(ALL) ALL 之后保存退出这样hduser用户就有了sudo权限

我是大魔王哈哈

2020-07-22

25.1982 2 0

Error Launching job : Input path does not exist: hdfs ://192.168.198.128 : 8020/ data/word. txt

出现如下图所示的错误原因是因为我们在 /data/目录下找不到word.txt 解决方法：我们只要把word.txt文件上传到hdfs上的/data目录下就可以了hdfs dfs -put word.txt /data/

我是大魔王哈哈

2020-07-16

19.8542 1 1

如何格式化HDFS？

在终端中输入 hdfs namenode -format 即可

我是大魔王哈哈

2020-07-13

34.0328 4 2

Error executing. Jupyter command lab’: [WinError 5]拒绝访问

出现如上图所示的错误原因是：我们没有对应的权限来打开 jupyter lab 解决方法：在开始菜单找到Anaconda Powershell以管理员的身份运行Anaconda Poweshell：找到Anaconda Poweshell点击右键有个更多选项 -》管理员身份运行之后在里面输入 jupyter lab 就可以正常运行了，如下图所示：

我是大魔王哈哈

2020-07-11

35.2695 3 3

怎样在jupyter notebook中查看方法的具体参数

如下图所示，我们想要查看arange（）方法的具体参数有哪些只要把光标移动到arange（）方法上然后按 Shift+Tab 键即可查看方法的具体参数

我是大魔王哈哈

2020-07-09

32.1523 4 3

PendingDeprecationlWarning: pyecharts 所有图表类型将在v1.9.0 开始强制使用ChartItem 进行数据项配置

出现如图中警告信息是因为：pyecharts实例是基于1.7.1版本设计的，而我们用pip命令默认安装的是最新版，又因为pyecharts是开源社区版本更新迭代较快，1.8.1的版本与1.7.1不兼容，所以才会出现这样的错误提示我们只要卸载现在的版本重新安装pyecharts的时候指定版本就可以了pip uninstall pyechartspip install pyecharts==1.7.1

我是大魔王哈哈

2020-07-08

21.5565 5 1

怎样关闭Hive版本自动检测功能

我们可以在hive的conf目录下修改hvie-site.xml文件，从而关闭版本验证在hvie-site.xml文件中添加如下内容： hive.metastore.schema.verification false即可关闭版本验证功能

我是大魔王哈哈

2020-07-05

34.4641 4 4

AnalysisException: Table or view not found: exit_ tran

出现这个AnalysisException: Table or view not found: exit_ tran错误的原因：是因为我们要想在spark中访问到hive中的表，应该要把spark和hive关联起来我们要到hive的conf目录下，执行命令：cp hive-site.xml ~/bigdata/spark-2.4.5/conf/之后重启spark即可解决

我是大魔王哈哈

2020-07-04

34.9268 3 4

怎样用python把语句中的中文标点符号转成英文标点符号

如下图所示：我们可以用python中的replace方法把中文标点转换成英文标点

我是大魔王哈哈

2020-07-02

22.8475 4 4

在jupyter notebook中运行代码为何没有输出

如上图所示我们不能输出n、m的值是因为当前我们只做了赋值操作而没有进行输出的操作如下图所示我们对n、m进行print操作即可把n、m的值输出出来

我是大魔王哈哈

2020-07-01

22.8351 2 3