大数据-数据科学专业问答社区-CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

展开 +

时间序列回归模型！

时间序列回归模型是用于分析时间序列数据的一种模型，主要用于探索数据之间的动态关系和时序特征。以下是时间序列回归模型的主要步骤和要点：1. **数据收集和准备**：首先需要收集时间序列数据，并进行数据清洗和准备工作，包括处理缺失值、异常值和平稳性检验等。2. **建立模型**：确定时间序列回归模型的形式，根据数据特点选择适当的模型，如自回归模型（AR）、滑动平均模型（MA）、自回归滑动平均模型（AR

0.0000 2 0

液冷服务器

一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限，华为如何力挽狂澜？

★深度学习、机器学习、多模态大模型、深度神经网络、高频因子计算、GPT-4、预训练语言模型、Transformer、ChatGPT、GenAI、L40S、A100、H100、A800、H800、华为、GPU、CPU、英伟达、NVIDIA、卷积神经网络、Stable Diffusion、Midjourney、Faster R-CNN、CNN随着人工智能技术的快速发展，多模态大模型在各个领域中的应用越

0.0000 1 0

液冷服务器

高性能计算与多模态处理的探索之旅：英伟达GH200性能优化与GPT-4V的算力加速未来

★多模态大模型；GPU算力；LLMS；LLM；LMM；GPT-4V；GH200；图像识别；目标定位；图像描述；视觉问答；视觉对话；英伟达；Nvidia；H100;L40s；A100;H100；A800；H800，AI算力，AI算法随着人工智能技术的不断发展，多模态大模型成为越来越重要的发展趋势。多模态大模型通过融合视觉等多种感知能力来扩展语言模型，实现更强大的通用人工智能。GPT-4V（GPT-4

0.0000 0 0

液冷服务器

深度学习模型部署与优化：策略与实践；L40S与A100、H100的对比分析

★深度学习、机器学习、生成式AI、深度神经网络、抽象学习、Seq2Seq、VAE、GAN、GPT、BERT、预训练语言模型、Transformer、ChatGPT、GenAI、多模态大模型、视觉大模型、TensorFlow、PyTorch、Batchnorm、Scale、Crop算子、L40S、A100、H100、A800、H800随着生成式AI应用的迅猛发展，我们正处在前所未有的大爆发时代。在这

0.0000 0 0

hql创建表格和录入数据的时候，怎么去掉原始数据的双引号？

老铁们，提问请教下：1、hql语言里面定义时间戳数据类型的关键字是啥？mysql 里面是datetime,这里是啥？2、原始数据的某些字符串字段有含双引号（如下面所示的cksj和cx），那么hql里面定义表格或者录入数据的时候需要用什么关键字去掉双引号？mysql里面是录入的时候加enclosed by '"'

0.0000 0 1

液冷服务器

如何在SAM时代下打造高效的高性能计算大模型训练平台

关键词：SAM；PCB；SA-1B；Prompt；CV；NLP；PLM；BERT；ZSL；task；zero-shot；data；H100、H800、A100、A800、LLaMA、Transformer、OpenAI、GQA、RMSNorm、SFT、RTX 4090、A6000、AIGC、CHATGLM、LLVM、LLMs、GLM、NLP、AGI、HPC、GPU、CPU、CPU+GPU、英伟达、

0.0000 0 0

液冷服务器

突破边界：高性能计算引领LLM驶向通用人工智能AGI的创新纪元

AGI | AIGC | 大模型训练 | GH200LLM | LLMs | 大语言模型 | MI300ChatGPT的成功带动整个AIGC产业的发展，尤其是LLM（大型语言模型，大语言模型）、NLP、高性能计算和深度学习等领域。LLM的发展将为全球和中国AI芯片、AI服务器市场的增长提供强劲动力，据估算，LLM将为全球和中国AI服务器带来约891.2亿美元和338.2亿美元的市场空间。国外厂商在

480.0000 2 0

CDA持证人阿涛哥

CDA数据分析学习之统计学描述性统计分析

描述性统计分析分为3个方面：1,集中趋势 2，离散程度 3，分布形态1，集中趋势用数据的集中值来度量数据的集中趋势1.1 均值1.2 中位数1.3 众数1.4 分位数例如四分位数2,离散程度集中趋势是由一个集中值作为数据的代表，这个集中值在数据本身中是有可能出现的。而离散趋势是度量数据偏离其集中值的程度，是一种偏离程度，这个偏离程度在数据本身中是不会出现的。2.1 异众比率

0.0000 0 0

液冷服务器

AIGC和ChatGPT推进百度、阿里、腾讯、华为大模型技术创新

AIGC | PC集群 | PC Farm | GPU服务器生成式AI | Stable Diffusion | ChatGPT2022 年 12 月，OpenAI 推出了 ChatGPT，这是一种高性能计算的大型语言生成模型。它的出现推动了人机对话技术的发展，并在网络上引起了极大的关注。目前，全球各大科技企业都在积极拥抱 AIGC，不断推出相关的技术、平台和应用。随着人工智能技术的不断发展，AI

540.0000 2 0

液冷服务器

高性能计算HPC照亮AIGC未来：PC集群+Stable Diffusion 打造极致游戏体验

角色设计 | PC集群 | 增强现实游戏设计 | PC农场 | PC Farm随着科技的不断进步，虚拟现实、增强现实等技术已经逐渐成为了游戏设计中不可或缺的一部分。而在这些技术的背后，角色设计、PC集群、GAMEAI等方面的不断发展也为游戏的体验提供了更加丰富的可能性。而在这其中，Stable Diffusion技术的应用更是为游戏的流畅性和稳定性提供了强有力的保障。PC集群和Stable Dif

21.8182 2 0

液冷服务器

如何构建可持续的ChatGPT高性能服务器端架构?

边缘计算 | 液冷服务器 | GPT-4深度学习 | AI服务器 | ChatGPT在上周举行的发布会上，OpenAI宣布推出了GPT-4模型。与之前的版本相比，GPT-4最大的改进是其多模态（multimodal）能力——它不仅能够阅读文字，还能识别图像。值得注意的是，虽然之前有消息称GPT-4拥有100万亿个参数，但OpenAI并没有证实这个数字。与其相比，OpenAI更强调GPT-4的多模态

21.8182 2 0

CDA持证人阿涛哥

如何解决数据倾斜问题？

解决数据倾斜问题的方案方案一：过滤掉倾斜数据当少量key重复次数特别多，如果这种key不是业务需要的key，可以直接过滤掉。方案二：引入随机数数据按照类型group by时，会将相同的key所需的数据拉取到一个节点进行聚合，而当某组数据量过大时，会出现其他组已经计算完成而当前任务未完成的情况。可以考虑加入随机数，将原来的一组key 强制拆分为多组进行聚合。

501.8182 4 0

CDA持证人阿涛哥

数据倾斜是什么？

数据倾斜是开发画像过程中常遇到的问题，当任务执行一直卡在 map 100%、reduce 99%，最后的1%花了几个小时都没执行完时，这时一般是遇到了数据倾斜。问题出现的原因是当进行分布式计算时，由于某些节点需要计算的数据较多，导致其他节点的reduce阶段任务执行完成时，该节点的任务还没有执行完成，造成其他节点等待该节点执行完成的情况。比如两张大表在join的时候大部分key对应10条

21.8182 2 0

CDA持证人阿涛哥

用户特征库开发

用户特征库开发为进一步从多个维度丰富用户特征，挖掘用户的相关行为，除了开发用户标签体系外，一般还会开发用户的特征库。一方面为个性化推荐、精准营销、商业分析等应用提供中间层数据，另一方面也可以削减不同算法在特征构建时的冗余加工。简单来说，用户特征库就是对用户每一次的不同行为（如浏览、收藏、搜索、购买等）及该行为对应的标签（或商品品类）进行详细的记录，以便从用户的行为特征中挖掘用户的偏好。与

21.8182 2 0

CDA持证人阿涛哥

Elasticsearch简介

Elasticsearch简介 Elasticsearch是一个开源的分布式全文检索引擎，可以近乎实时地存储、检索数据。而且可扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。对于用户标签查询、用户人群计算、用户群多维透视分析这类对响应时间要求较高的场景，也可以考虑选用 Elasticsearch进行存储。Elasticsearch是面向

21.8182 2 0

CDA持证人阿涛哥

用户画像建设项目开发流程

用户画像建设项目开发流程第一阶段：目标解读在建立用户画像前，首先需要明确用户画像服务于企业的对象，再根据业务方需求，明确未来产品建设目标和用户画像分析之后的预期效果。一般而言，用户画像的服务对象包括运营人员和数据分析人员。不同业务方对用户画像的需求有不同的侧重点，就运营人员来说，他们需要分析用户的特征、定位用户行为偏好，做商品或内容的个性化推送以提高点击转化率，所以画像的侧重点就落在

21.8182 2 0

学习大数据要什么基础

学习大数据要什么基础，不是计算机专业的能学大数据分析吗？

0.0000 1 2

大数据分析的方法有哪些？

　　1、因子分析方法　　所谓因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系，减少决策的困难。因子分析的方法约有10多种，如影像分析法，重心法、最大似然法、最小平方法、α抽因法、拉奥典型抽因法等等。　　2、回归分析方法　　回归分析方法就是指研究一个随机变量Y对另一个(X)或一组变量的相依关系的统计分析方法。回归分析是确定两种或两种以上变数间相互依赖的定量关

120.0000 2 0

从今天开始不熬夜

hive中的列转行

EXPLODE(col)：将 hive 一列中复杂的 array 或者 map 结构拆分成多行。LATERAL VIEW:用法：LATERAL VIEW udtf(expression) tableAlias AS columnAlias.用于和 split, explode 等 UDTF 一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。

43.4504 2 0

从今天开始不熬夜

hive中的行转列

CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串;CONCAT_WS(separator, str1, str2,...)：它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和

43.4504 3 0

123…75>

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

热门用户换一批

: 詹惠儿

: 赵娜0418

: shauna570392

: 啊啊啊啊啊吖

: liting李

: 读童话的狼

本月PGC排行

总奖励

01: CDA持证人阿涛哥; 480.0000

02: 85691082; 320.0000