关联用户第三方账号(如微博),可以冷启动阶段匹配用户更有可能选择的属性,推荐用户选择 交互性做好 这里需要允许用户跳过,后续再提醒用户填写 告知用户填写的信息会受到很好的保护 如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120 现在男性100人,点击6人;女性20人,点击20人,总点击率26/120 F检验是检验两个正态分布的样本的方差是否存在显著差异 也可以用于对多组样本之间比较 计量中,F检验原假设所有自变量对因变量都没有影响,排除原假设说明至少有一个自变量对因变量有影响 渠道特征:渠道、渠道次日留存率、渠道流量以及各种比率特征 环境特征:设备(一般伪造假用户的工作坊以低端机为主)、系统(刷量工作坊一般系统更新较慢)、wifi使用情况、使用时间、来源地区、ip是否进过黑名单 用户行为特征:访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转行为(假用户的行为要么过于一致,要么过于随机)、页面使用行为(正常用户对图片的点击也是有分布的,假用户的行为容易过于随机) 异常特征:设备号异常(频繁重置idfa)、ip异常(异地访问)、行为异常(突然大量点击广告、点赞)、数据包不完整等 行存储:传统数据库的存储方式,同一张表内的数据放在一起,插入更新很快。缺点是每次查询即使只涉及几列,也要把所有数据读取 列存储:OLAP等情况下,将数据按照列存储会更高效,每一列都可以成为索引,投影很高效。缺点是查询是选择完成时,需要对选择的列进行重新组装。
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar