1、介绍
https://tianchi.aliyun.com/competition/entrance/531842/information
赛题以预测用户未来点击新闻文章为任务,该数据来自某新闻APP平台的用户交互数据,
- 包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。
- 从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。
数据集
train_click_log.csv:训练集用户点击日志testA_click_log.csv:测试集用户点击日志articles.csv:新闻文章信息数据表articles_emb.csv:新闻文章embedding向量表示sample_submit.csv:提交样例文件
| Field | Description |
|---|
| user_id | 用户id | | click_article_id | 点击文章id | | click_timestamp | 点击时间戳 | | click_environment | 点击环境 | | click_deviceGroup | 点击设备组 | | click_os | 点击操作系统 | | click_country | 点击城市 | | click_region | 点击地区 | | click_referrer_type | 点击来源类型 | | article_id | 文章id,与click_article_id相对应 | | category_id | 文章类型id | | created_at_ts | 文章创建时间戳 | | words_count | 文章字数 | | emb_1,emb_2,…,emb_249 | 文章embedding向量表示 |
2、
task01:Baseline
http://datawhale.club/t/topic/196
协同过滤:http://datawhale.club/t/topic/41
内容勘误:http://datawhale.club/t/topic/302
task02:数据分析
http://datawhale.club/t/topic/197
|