定义
是根据用户的一系列行为和意识过程建立起来的多维度标签;是根据用户人口学特征,网络浏览内容,网络社交活动和消费行为等信息而抽象出的一个标签化的用户模型;首要任务:根据业务需求整理和数据情况分析建立相对应的标签体系
内容
并不完全固定,根据行业和产品的不同所关注的特征也有所不同。对于大部分互联网公司,用户画像都会包含人口属性和行为特征。人口属性主要指用户的年龄,性别,所在的省份和城市,教育程度,婚姻情况,生育情况,工作所在的行业和职业等;行为特征主要包含活跃度,忠诚度等指标
目的
必须从业务场景出发,解决实际的业务问题:获取新用户 ;提升用户体验 ;挽回流失用户
根据用户画像的信息做产品设计,必须要清楚知道用户长什么样,有什么行为特征和属性,这样才能为用户设计产品或开展营销活动
目标
通过分析用户行为,最终为每个用户打上标签以及该标签的权重。
标签:表现了内容,用户对该内容有兴趣,偏好,需求等
权重:表现了指数,用户的兴趣,偏好指数,也可能表现用户的需求度,概率
作用
精准营销:精准直邮,短信,app消息推送,个性化广告等
用户研究:指导产品优化,甚至做到产品功能的私人订制等
个性服务:个性化推荐,个性化搜索等
业务决策:排名统计,地域分析,行业趋势,竞品分析等
意义
完善产品运营,提升用户体验:业务运营监控,迅速定位服务群体,优化用户体验
对外服务,提升盈利:分析产品潜在用户,精细化营销,数据服务
用户统计
数据挖掘,构建智能推荐系统
对服务或产品进行私人订制
业务经营分析以及竞争分析,影响企业发展战略
应用
风险控制:包括个人及企业级信用评分,欺诈识别
个性化推荐:根据每个人的不同喜好推荐与之相关的内容
精细化运营:包括产品优化,市场和渠道分析,漏斗分析。提升用户体验还有广告投放,数据交易,行为预测等
常用算法
常见的分类算法和聚类算法都会用到,比如svm,lr分类,k-means聚类等
核心工作
利用存储在服务器上的海量日志和数据库里的大量数据进行分析和挖掘,给用户贴标签,而标签是能表示用户某一维度特征的标识
难点
数据源,业务结合,动态更新
商业价值
和它支撑的应用密切相关,比如应用于营销,可以提升广告效果和流量变现的效率
做好用户画像的前提
优质的数据源
统一设备ID
数据源补充
标签体系
计算能力:数据挖掘需要大量的矩阵和迭代计算
技术积累:涉及分类,聚类,神经网络等算法,以及算法模型的构建和优化,需要相当的技术积累和时间验证
1.特征工程
就是提取APP特征,事件特征,浏览内容特征等
对非结构化数据来说,通常要经历 "分词" ,"过滤","特征提取" 三个步骤
2.数据建模
常见的模型:朴素贝叶斯,逻辑回归,SVM,神经网络等
在模型优化过程中,调参优化是非常重要的一步,在调参优化过程中,我们通常会遇到过拟合,样本不均等情况
用户数据分为两类:静态信息数据来源和动态信息数据来源
静态信息数据来源
顾名思义就是用户不会轻易改变的数据,比如社会属性,生活习惯等
用户填写的个人资料,或者由此通过一定的算法,计算出来的数据
如果有不确定的,可以建立模型来判断
动态信息数据来源
用户不断变化的行为信息,一般取决于用户对产品的行为反馈
动态数据都可以通过该产品/网页的数据统计记录下来,只要产品数据埋点足够完善,需要哪些数据就直接从数据库拉取就可以
用户行为产生的数据:注册,浏览,点击,购买,签收,评价,收藏等
用户比较重要的行为数据:浏览商品,收藏商品,加入购物车,关注商品
标签是表达人的基本属性,行为倾向,兴趣爱好等某一维度的数据标识,是一种相关性很强的关键字,可以简洁地描述和分类人群
标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式
特点
语义化:使人方便理解每个标签的含义;每个标签只表示一种含义