用户画像是怎么生成出来的？

最近看到用户画像，原来大致了解了，但是这种图是怎么生成的，一直也明白，求大神解疑哈。

zhihu用户 · 2019-5-18 03:48:43

在日常商业活动中，有各种各样的职能划分：增长、内容、活动、产品，虽然具体工作和最终目标不一样，但其实都是围绕着“用户”去做，可以说都是在做“用户运营”。在这个阶段中，我们不得不使用一个工具——用户“画像”标签体系。

一、什么是用户画像

用户画像（User Persona）的概念最早由交互设计之父Alan Cooper提出，是建立在一系列属性数据之上的目标用户模型。一般是产品设计、运营人员从用户群体中抽象出来的典型用户，本质是一个用以描述用户需求的工具。

Personas are a concrete representation of target users.
真实用户的虚拟代表
——交互设计之父Alan Cooper

但随着互联网的发展，现在我们说的用户画像（User Profile）又包含了新的内涵：根据用户人口学特征、网络浏览内容、网络社交活动和消费行为等信息而抽象出的一个标签化的用户模型。

它的核心工作主要是利用存储在服务器上的海量日志和数据库里的大量数据进行分析和挖掘，给用户贴“标签”，而“标签”是能表示用户某一维度特征的标识，主要用于业务的运营和数据分析。（如图所示）

二、为什么需要用户画像

用户在企业发展的过程中有举足轻重的作用，主要的应用有：

1、精准营销：这是运营最熟悉的玩法，在从粗放式到精细化运营过程中，将用户群体切割成更细的粒度，辅以短信、推送、邮件、活动等手段，驱以关怀、挽回、激励等策略。

2、用户分析：用户画像也是了解用户的必要补充。产品早期，产品经理们通过用户调研和访谈的形式了解用户。在产品用户量扩大后，调研的效用降低，这时候就可以辅以用户画像配合研究。方向包括新增的用户有什么特征，核心用户的属性是否变化等等。

3、数据应用：用户画像是很多数据产品的基础，诸如耳熟能详的推荐系统广告系统，广告基于一系列人口统计相关的标签，性别、年龄、学历、兴趣偏好、手机等等来进行投放的。

4、数据分析：用户画像可以理解为业务层面的数据仓库，各类标签是多维分析的天然要素。数据查询平台会和这些数据打通，最后辅助业务决策。

三、用户画像的主要内容

用户画像一般按业务属性划分多个类别模块。除了常见的人口统计，社会属性外，还有用户消费画像、用户行为画像，用户兴趣画像等。

人口属性和行为特征是大部分互联网公司做用户画像时会包含的：人口属性主要指用户的年龄、性别、所在的省份和城市、教育程度、婚姻情况、生育情况、工作所在的行业和职业等。行为特征主要包含活跃度、忠诚度等指标。

除了以上较通用的特征，用户画像包含的内容并不完全固定，根据行业和产品的不同所关注的特征也有不同。

①以内容为主的媒体或阅读类网站、搜索引擎，或通用导航类网站，往往会提取用户对浏览内容的兴趣特征，比如体育类、娱乐类、美食类、理财类、旅游类、房产类、汽车类等等。

②社交网站的用户画像，也会提取用户的社交网络，从中可以发现关系紧密的用户群和在社群中起到意见领袖作用的明星节点。

③电商购物网站的用户画像，一般会提取用户的网购兴趣和消费能力等指标。网购兴趣主要指用户在网购时的类目偏好，比如服饰类、箱包类、居家类、母婴类、洗护类、饮食类等。消费能力指用户的购买力，如果做得足够细致，可以把用户的实际消费水平和在每个类目的心理消费水平区分开，分别建立特征纬度。

④像金融领域，还会有风险画像，包括征信、违约、洗钱、还款能力、保险黑名单等。

另外还可以加上用户的环境属性，比如当前时间、访问地点LBS特征、当地天气、节假日情况等。当然，对于特定的网站或App，肯定又有特殊关注的用户维度，就需要把这些维度做到更加细化，从而能给用户提供更精准的个性化服务和内容。

四、如何构建用户画像

业内有很多关于创建用户画像的方法，比如Alen Cooper的“七步人物角色法”，Lene Nielsen的“十步人物角色法”等，这些都是非常好并且非常专业的用户画像方法，值得我们借鉴和学习。

事实上，当我们了解了这些方法之后，就会发现这些方法从流程上可以分为3个步骤：获取和研究用户信息、细分用户群、建立和丰富用户画像。在这3大步骤中，最主要的区别在于对用户信息的获取和分析，从这个维度上讲主要有以下三种方法：

简单来说，定性就是去了解和分析，而定量则是去验证。一般而言，定量分析的成本较高、相对更加专业，而定性研究则相对节省成本。因此创建用户画像的方法并不是固定的，而是需要根据实际项目的需求和时间以及成本而定。创建用户画像的方法，并没有严格意义的最专业和最科学，但是有最适合团队和项目需求的。

好的用户画像是理解用户的决策，考虑业务场景和业务形态的。这里我们介绍一种简单的构建用户画像方法。

1、数据采集

构建用户画像是为了还原用户信息，因此数据来源于所有用户相关的数据。用户数据划分为静态数据、动态数据两大类。

静态数据：用户的人口属性、商业属性、消费特征、生活形态、CRM五大维度，其获取方式存在多种，数据挖掘是最为常见也是较为精准的一种方式，如果数据有限，则需要定性与定量结合补充。定性方法如小组座谈会、用户深访、日志法、Laddering 阶梯法、透射法等，主要是通过开放性的问题潜入用户真实的心理需求，具象用户特征；定量更多是通过定量问卷调研的方式进行，关键在于后期定量数据的建模与分析，目的是通过封闭性问题一方面对定性假设进行验证，另一方面获取市场的用户分布规律。

动态数据：用户不断变化的行为信息，一个用户打开网页，买了一个杯子；与该用户傍晚溜了趟狗，白天取了一次钱，打了一个哈欠等等一样都是用户行为。随着互联网的发展，各种动态的行为数据都可以被记录下来。

2、目标分析

用户画像的目标是通过分析用户行为，最终为每个用户打上标签，以及该标签的权重。标签，表征了内容，用户对该内容有兴趣、偏好、需求等等。权重，表征了指数，用户的兴趣、偏好指数，也可能表征用户的需求度，可以简单的理解为可信度，概率。

3、数据建模

一个事件模型包括：时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件，可以详细描述为：什么用户，在什么时间，什么地点，做了什么事。

①用户：关键在于对用户的标识，用户标识的目的是为了区分用户、单点定位。

②时间：时间包括两个重要信息，时间戳和时间长度。时间戳，为了标识用户行为的时间点；时间长度，为了标识用户在某一页面的停留时间。

③地点：用户接触点，Touch Point。对于每个用户接触点。潜在包含了两层信息：网址和内容。网址：每一个链接（页面/屏幕），即定位了一个互联网页面地址，或者某个产品的特定页面。可以是PC上某电商网站的页面，也可以是手机上的微博，微信等应用某个功能页面，某款产品应用的特定画面。如，长城红酒单品页，微信订阅号页面，某游戏的过关页。

④内容：每个网址（页面/屏幕）中的内容。可以是单品的相关信息：类别、品牌、描述、属性、网站信息等等。如，红酒，长城，干红，对于每个互联网接触点，其中网址决定了权重；内容决定了标签。

⑤事情：用户行为类型，对于电商有如下典型行为：浏览、添加购物车、搜索、评论、购买、点击赞、收藏等等。

综合上述分析，用户画像的数据模型，可以概括为下面的公式：用户标识+时间+行为类型+接触点（网址+内容），某用户因为在什么时间、地点、做了什么事。所以会打上标签。

用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，进一步转换为公式：标签权重=衰减因子×行为权重×网址子权重。

五、注意事项

1、不要把典型用户当作用户画像

不能把典型用户当作用户画像。每年的微信生活白皮书中，微信官方都会公布典型用户的一天：工作日每天 7 点起床刷朋友圈、7:45 出门路上读文章……很多用户看了表示这完全就是自己啊！不过也有不少人吐槽：我也是微信重度用户，但这个典型的一天的跟我怎么完全不符合？

为什么会出现如此截然相反的反馈呢？原来是这些人把「典型用户」跟「用户画像」的概念搞混了。因为以上描述典型用户这些特点，只是把用户特征抽象出来，组合在一起，事实上典型用户是虚构的，并不真实存在。而用户画像是把用户以标签的形式表现出来，每一个真实存在的用户都有对应的用户画像。

2、不要把用户画像简单理解成由用户标签构成

这也是 50% 以上的人都可能存在的错误认知，即把用户画像简单理解成由用户标签构成。用户标签是用来概括用户特征的，比如说姓名、性别、职业、收入、养猫、喜欢美剧等等。这些标签表面上看没有什么问题，但是实际上组成用户画像的标签要跟业务/产品结合。

举个夸张的例子，海底捞要做用户画像，最后列出来小明是一个大学生、高富帅、独生子、四川人，爱玩游戏、爱看动漫等用户标签。而事实上，对于海底捞而言，用户帅不帅、是否爱玩游戏真的没有关系。

3、没有建立真正有效的用户画像标签

如果你能够建立真正有效的用户画像标签，才算正确理解从而提升运营效果。这就涉及到构建用户画像最大的难点了。

比如某知识付费团队要卖课，那么建立用户画像最核心的诉求就是：提高课程购买数量。如果能通过用户画像了解用户购买课程的意愿，然后采取相应的运营策略，效率便会大幅度提高。而这个购买课程意愿度，就是我们最需要放在用户画像里的标签。

比如我们建立用户画像之后，计算出来甲购买课程的意愿是 40%，乙购买课程的意愿是 90%。为了进一步提高购买量，我们会对购买意愿在 40% 的用户（甲）发放优惠券。如果没有建立这样一个用户画像标签，我们就会对甲和乙发放同样的优惠券。而乙类用户原本是不需要用优惠券进行激励的，这么一发，便会增加很多成本。这也就是电商利用用户画像标签实现的大数据杀熟。

六、小结

1.我们进入了一个用户精细化运营阶段。在这个阶段中，我们不得不使用一个工具——用户“画像”标签体系；

2.用户画像是根据用户人口学特征、网络浏览内容、网络社交活动和消费行为等信息而抽象出的一个标签化的用户模型；

3.用户在企业发展的过程中有举足轻重的作用，主要应用有：精准营销、用户分析、数据应用、数据分析；

4.用户画像包含的内容并不完全固定，根据行业和产品的不同所关注的特征也有不同；

5.好的用户画像是理解用户的决策，考虑业务场景和业务形态的。

zhihu用户 · 2019-5-18 03:48:44

在移动互联网时代，精细化运营成为企业重要的竞争力，此时，“用户画像”的概念也应运而生。用户画像是指，在大数据时代，我们通过对海量数字信息进行清洗、聚类、分析，从而将数据抽象成标签，利用这些标签将用户形象具体化，从而为用户提供有针对性的服务。
在下文中，我们将以个推用户画像产品为例，为你详解“用户画像”的技术特点和使用价值。
个推用户画像产品依托个推多年积累的海量数据及强大的数据分析能力，可为 APP 开发者提供丰富的用户画像数据以及实时的场景识别能力，进而帮助客户了解用户信息，从而助力移动 APP 目标用户精准筛选、个性化推送消息和应用更新下载等。
用户画像的形成需要经历四个过程，主要包括数据收集、数据清洗、数据建模分析、数据产出。其中，数据清洗和数据建模统称数据处理，在经过数据处理之后，个推凭借多年积累的大数据能力，以独特的冷、热、温数据维度分析进行数据产出形成用户画像。
[h2]一、用户画像用了哪些技术？[/h2]在数据处理阶段，个推用户画像产品的大数据计算架构采用了 Kafka 分布式发布订阅消息系统，这一系统具有高吞吐量、高稳定性的特点。数据清洗可利用 HADOOP、SPARK 实现设备唯一性识别、行为数据的清洗等，从而去除冗余数据。这一过程支持交互计算和多种复杂算法，同时，它还支持数据实时 / 离线计算。

在数据建模的过程中，主要用了机器学习中的聚类（无监督学习) 和深度学习技术，这能让模型对用户行为数据主动学习，进行行为判断，由此产出用户标签。

之后，数据的产出会形成冷数据画像、温数据回溯、热数据场景和定制化标签四种画像。
冷数据画像，是指基于大数据分析出用户的属性，改变概率较小的数据，如用户的年龄段、性别等。
“温数据”则可以回溯用户近期活跃的线上和线下场景，具有一定的时效性。
“热数据”是指用户当下的场景及实时的用户特征，帮助 APP 运营者抓住稍纵即逝的营销机会。
定制化标签是将个推数据与第三方数据结合起来，共同建模得出具有价值的特征标签。总的来说，个推用户画像产品不仅能产出通用的标签维度，也有定制化标签的输出能力。

[h2]二、如何构建用户画像？[/h2]“用户画像”的构建需要技术和业务人员的共同参与，以避免形式化的用户画像，具体做法可参考个推构建用户画像的流程：

（1）标签体系设计。开发者需要先了解自身的数据，确定需要设计的标签形式。
（2）基础数据收集、多数据源数据融合。在建设用户画像时，个推用户画像产品会整合个推以及该 APP 自身的数据。
（3）实现用户统一标识。多数情况下，APP 的众多用户分布于不同的账号体系中，个推会将其统一标识，帮助 APP 打通账号，实现信息快速共享。
（4）用户画像特征层构建，即将每一个数据进行特征化。
（5）画像标签规则 + 算法建模，两者缺一不可。在实际的应用中，算法难以解决的问题，利用简单的规则也可以达到很好的效果。
（6）利用算法对所有用户打标签。
（7）画像质量监控。在实际的应用中，用户画像会产生一定的波动，为了解决这个问题，个推建设了相应的监控系统，对画像的质量进行监控。

总之，个推用户画像构建的整体流程，可以概况为三个部分：

第一，基础数据处理。基础数据包括用户设备信息、用户的线上 APP 偏好以及线下场景数据等。
第二，画像中间数据处理。处理结果包括线上 APP 偏好特征和线下场景特征等。
第三，画像信息表。表中应有四种信息：设备基础属性；用户基础画像，包括用户的性别、年龄段、相关消费水平等；用户兴趣画像，即用户更有兴趣的方向，比如用户更偏好拼团还是海淘；用户其它画像等。

在个推用户画像构建的过程中，机器学习占据了较为重要的位置。机器学习主要应用在海量设备数据采集、数据清洗、数据存储的过程。
[h2]三、用户画像能做什么？[/h2]用户画像常用在电商、新闻资讯等 APP，帮助 APP 打造内容精准推荐系统，实现千人千面运营。
基于用户特征的个性化推荐
APP 的运营者通过个推用户画像提供的性别、年龄段、兴趣爱好等标签，分别展示不同的内容给用户, 以达到精准化运营。

基于用户特征指导内容推荐
基于用户特征指导内容的推荐是指找到与目标相似的用户群，利用该用户群的行为特征对目标用户进行内容推荐，具体过程如下图：

在这里，我们需要解释一下其中所涉及到的相似性建模技术。相似性建模可类比于聚类建模，它是无监督学习中的一种，它指的是寻找数据中的特征，把具有相同特征的数据聚集在一组，赋予这些聚集在一起的数据相同的特征标签，从而给这些具有这些特性的用户推送相同的内容。

这种推荐方式的优点是，它的自有特征是经过 APP 长期积淀而来，颗粒度更细，适用性更强，对用户的认识更全面，效果能持续提升，而且它还能针对 APP 所处行业与自身需求，量身定制匹配算法，让推荐更精准。
此外，如上文所言，个推用户画像能够结合第三方数据做定制化建模，通过双方共同建模得出显著价值和特征标签，依据不同标签向用户推送不同的内容。这样不仅能保证推送的内容更精准，覆盖面也更广泛，而且标签增补的方式，也可以很大程度上提升流量价值。

[h2]四、开发者如何接入？[/h2]个推用户画像 SDK 的接入主要有两个方式：

SDK 集成：客户端集成个推用户画像 SDK，进行初始化 SDK 后，返回给客户一个 ID 即 GIUID(唯一身份标识)，此 ID 需要由客户端提交到客户服务器，然后服务器通过 API 接口传入 GIUID 进行查询用户画像标签数据。

API 接口调用：客户将应用名称、包名及服务端出口 IP 提供后，返回 APP ID 等相关信息。客户根据《个推用户画像数据服务接口文档》及《用户画像编码表》集成测试后方可调用 API 接口查询画像信息。

具体的集成文档参见以下链接：

Android：http://docs.getui.com/gexiang/start/android/
iOS：http://docs.getui.com/gexiang/start/ios/
服务端：http://docs.getui.com/gexiang/start/server/

zhihu用户 · 2019-5-18 03:48:45

谢邀
最近技术方面的问题越来越多，亚历山大，回答不过来了。

用户画像数据维度
　　针对每一类数据实体，进一步分解可落地的数据维度，形成字段集。
　　1. 用户数据：
　　用户自然特征：性别，年龄，地域，教育水平，出生日期，职业，星座
　　用户兴趣特征：兴趣爱好，使用APP/网站,浏览/收藏内容，互动内容，品牌偏好，产品偏好
　　用户社会特征:婚姻状况，家庭情况，社交/信息渠道偏好
　　用户消费特征：收入状况,购买力水平，已购商品，购买渠道偏好，最后购买时间，购买频次
　　2. 商品数据(以消费电子类为例)：
手机：品牌，颜色，尺寸，电池容量，内存，摄像头，CPU，材质，散热，价格区间
笔记本：品牌，屏幕尺寸，配置，颜色，风格，薄厚，价格区间
智能手表：品牌，功能，材质，电池容量，颜色，风格，价格区间
　　3. 渠道数据(以消费电子类为例)：
　　信息渠道：微信，微博，论坛，SNS，贴吧，新闻网站，咨询App
　　购买渠道:电商平台，微店，官网，实体店，卖场

你在问题中说，大致知道情况，那用户画像的维度或许你也有所了解，可视化工具给你推荐几个吧：
1、Introducing Visage | Column Five
今年的SXSWReleaseIt的获胜者，Visage基于Web平台，在ColumnFive，它把表现平平的数据在报告中变成美丽的品牌可视化效果，使信息更具冲击力，并且使你的工作看起来更高端。易于使用的软件可以帮助你创建高品质、专业的可视化，并且准确、有效、优雅。“在今年晚些时候，我们曾与Visage的CEO Jason Lankow谈过有关该工具的成功运行和未来的计划。

2、Introducing Landline andStateline：浏览器中两个快速绘制矢量地图的工具|ProPublica
就像我们最近说，这是ProPublica的一年。在新的工具“front”中，他们的贡献在于使用Landline的形式。这是一个开源的JavaScript库，可以把GeoJSON数据转换成基于浏览器的SVG格式的地图。Stateline是建立在Landline的基础上，来创造美国州和县的地区分布图。完整的文档在GitHub上。

3、YBY：公民报告的新台阶|O ecolab
很高兴地看到我们的朋友OEcolab公司在2014年推出这个最新项目。YBY是专注于推动企业建立自己众包平台的软件。基本上这是一个协作的地图平台，用户可以画点、多边形和地区。所有的源代码是开源的，并可以在GitHub上有效使用。开发团队渴望得到使用者的反馈，请尝试一下吧。

4、El Mirador| Fathom
Mirador是一种提供大型数据库的可视化工具，通过可视化的基本结构，确定解释变量的群体。上手的最佳方式是阅读它的使用手册，并从网页下载的应用程序后，打开其中一个例子亲自操作。

5、Plotly:For Pixel Perfect Charts | http://Visual.ly Blog
Plotly是另一个免费进行数据分析和绘制图表的APP，建立在d3.js上。如果你没有编码器，但希望灵活性和丰富性，d3.js一个很好的选择。 Plotly图可下载为SVG，EPS或PNG格式，并简单地导入到Illustrator或者Photoshop中。

6、Visits:定位历史和照片的可视化工具 | VisualisingData
在这篇文章中，Andy Kirk讨论了visits，由AliceThudt, Sheelagh Carpendale 和 Dominikus Baur创造的新可视化工具，通过浏览你的位置历史，探索你的旅行足迹。该工具是基于卡尔加里大学的一个研究项目。你可以在这里找到相应的发布。http://innovis.cpsc.ucalgary.ca/innovis/uploads/Publications/Publications/visits.pdf

7、Odyssey.js: 讲故事的开源工具 | CartoDB
我们一般会尽量避免同公司谈论他们推出的产品，但是当CartoDB提出Odyssey.js这个开源库，允许记者，设计师和创造者在网络上编织故事，交互式地图为基础的叙事开始出现。用户通过地理位置的切换将每件事情讲清楚。这个免费工具的发展归功于 John S. 和James L. Knight 基金会的支持。

8、Wolfram Programming Cloud Is Live| Wolfram
在庆祝沃尔夫勒姆研究公司推出Mathematica26周年时，这个计算型知识引擎公司推出了WolframProgramming Cloud新产品。这个新的Wolfram语言的产品序列，是专门设计用来让用户创建和部署基于云的计划。

9、Data Visual
“我们的使命是使数据对每一个人可视化。在我们简单的用户界面上，我们使个人和组织能够轻松地创建和分享美丽的可视化。”这是这个数据可视化工具的介绍，他们成为第一个在早期阶段加入日报创新实验室的公司。你可以通过下面的视频了解这个工具的强大。
datavisual template demo from Danne Woo on Vimeo

10、dimple
DimpleAPI接口用于在D3上进行商业分析，Dimple API可以帮助分析师不需要了解太多技术内容而开发强大的数据可视化效果。dimple的目的是开拓D3在分析上的强大功能和灵活性。Dimple使任何人都能够开发令人惊叹的三维图形效果，这样你就可以使用他们并运行创造一些非常酷的东西。

11、Turn JS projects into data products anyone can use | Blockspring
BlockSpring是一种可以从‘blocks’ 进行可视化的产品，让你从你的团队及世界各地的工程师建立。除了侧边公告有详细的教程讲解如何使用它，而且BlockSpring的报价给你提供的不仅仅是可视化。

当然，也可以自己动手写，把这个图按一定阈值划分成两个色阶，一个需要填充的，一个不需要填充的，填充的部分用标签填上。如果你对大数据感兴趣，欢迎加我们微信：idacker 或者直接扫码
http://weixin.qq.com/r/JUjbw8TE1JmrrYCg9x03 (二维码自动识别)

zhihu用户 · 2019-5-18 03:48:46

上图
局部数据流图

七步角色法

zhihu用户 · 2019-5-18 03:48:47

要生成这种用户画像很简单，可以参考以下工具：

Word Art：一款简单的词云生成工具，可以选择网站预设的形状，也可以上传自己想要的形状，还可以设置字体、颜色等等，免费好用。

Wordito：免费试用，无需注册，你也可以去控制文本的排列以及颜色等一些属性。

当然像这样的工具还有很多，比如 WordSift 、TagCrowd 等等，也都可以生成词云。用过Python的人都应该知道 wordcloud 这个包，用代码来绘制词云，可以达到更精确的控制。

这个工作其实很简单，但是用户画像的重点并不是把用户的属性画成图形，而是通过用户的信息和行为数据获得可以描述用户特点的标签。
那如何获得这些可以描述一个或者一类用户的标签呢？除了产品本身需要尽量让用户在注册时完善我们需要的用户信息之外，也要在运营的过程中注意在用户的行为中进行埋点（通过埋点获得用户的浏览、点击、评论、消费等数据）。
有了这些数据我们就可以定量化地去将标签添加在用户身上，并给不同用户加上不同的权重。比如我们通过对一个用户定量化的分析，来获得这些结构化的标签数据。
而通过添加标签获得的用户画像，就可以帮助我们去做一些非常有意义的落地工作。比如精准的广告投放，个性化的内容推荐等等。

而如何去对一个产品的用户进行标签化，是需要一定的领域经验和对用户的认知。关于用户画像的建立全过程，说实话也并没有一个可以公认的框架，但可以根据他人的经验来建立基本的工作体系和认知体系。对于实际操作一个用户画像的建立，目前觉得比较好的是DC学院的一个课程：基于用户画像的基准营销。

用户画像是怎么生成出来的？

5 个回复

浏览过的版块