箱线图多个y含组怎么画_干货案例 | Pandas数据可视化怎么做?

论坛 期权论坛 期权     
选择匿名的用户   2021-6-1 07:13   9130   0
↑↑↑ 点击上方 蓝字 ,关注 极客猴 如果你喜欢极客猴,可以把我 置顶星标 ~ ff6423a077b90d9e035b334be9e49c1c.png 题图:from Pexels

数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的说明效果。

常见的数据可视化库有:
  • matplotlib 是最常见的2维库,可以算作可视化的必备技能库,由于matplotlib是比较底层的库,api很多,代码学起来不太容易。

  • seaborn 是建构于matplotlib基础上,能满足绝大多数可视化需求。更特殊的需求还是需要学习matplotlib。

  • pyecharts 上面的两个库都是静态的可视化库,而pyecharts有很好的web兼容性,可以做到可视化的动态效果。

但是在数据科学中,几乎都离不开pandas数据分析库,而pandas可以做:
  • 数据采集:如何批量采集网页表格数据?

  • 数据读取:pd.read_csv/pd.read_excel

  • 数据清洗(预处理):理解pandas中的apply和map的作用和异同

  • 可视化兼容matplotlib语法(今天重点)

准备工作 如果你之前没有学过pandas和matpltolib,我们先安装好这几个库
!pip3 install numpy!pip3 install pandas!pip3 install matplotlib
已经安装好,现在我们导入这几个要用到的库。使用的是伦敦天气数据,一开始我们只有12个月的小数据作为例子
#jupyter notebook中需要加这行代码%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd#读取天气数据df = pd.read_csv('data/london2018.csv')df
1338c1895ef30a64282953457c09854e.png

plot最简单的图 选择Month作为横坐标,Tmax作为纵坐标,绘图。 大家注意下面两种写法
#写法1df.plot(x='Month', y='Tmax')plt.show()
fb72a6d7356f85c37f704eaf610abc6a.png
  • 横坐标轴参数x传入的是df中的列名Month

  • 纵坐标轴参数y传入的是df中的列名Tmax

折线图 上面的图就是折线图,折线图语法有三种
  • df.plot(x='Month', y='Tmax')

  • df.plot(x='Month', y='Tmax', kind='line')

  • df.plot.line(x='Month', y='Tmax')

df.plot.line(x='Month', y='Tmax')plt.show()
fb72a6d7356f85c37f704eaf610abc6a.png
#grid绘制格线df.plot(x='Month', y='Tmax', kind='line', grid=True)plt.show()
a7ebe4b2f2812cd465e22ea18db99a44.png

多个y值 上面的折线图中只有一条线, 如何将多个y绘制到一个图中, 比如Tmax, Tmin。
df.plot(x='Month', y=['Tmax', 'Tmin'])plt.show()
adfa7b5303434e54153124f2691cec9a.png 条形图
df.plot(x='Month',        y='Rain',        kind='bar')#同样还可以这样画#df.plot.bar(x='Month', y='Rain')plt.show()
287f3df20e0d550bfbe2e160bbf54c74.png 水平条形图

bar环卫barh,就可以将条形图变为水平条形图

df.plot(x='Month',        y='Rain',        kind='barh')#同样还可以这样画#df.plot.bar(x='Month', y='Rain')plt.show()
77d1949f42fc28f1d5b93d1528f633fe.png 多个变量的条形图
df.plot(kind='bar',        x = 'Month',       y=['Tmax', 'Tmin'])plt.show()
759df9c0c87245233f702f10e4014248.png

散点图
df.plot(kind='scatter',        x = 'Month',        y = 'Sun')plt.show()
091ce1a2bbefa19f857c0d880d1c4bf9.png

饼形图
df.plot(kind='pie', y='Sun')plt.show()
eb68272302a1624ea30f7bd7b4033e5a.png 上图绘制有两个小问题:
  • legend图例不应该显示

  • 月份的显示用数字不太正规

df.index = ['Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec']df.plot(kind='pie', y = 'Sun', legend=False)plt.show()
d93047a5263f1ef7496f124cba2fa390.png

更多数据 一开头的数据只有12条记录(12个月)的数据,现在我们用更大的伦敦天气数据
import pandas as pddf2 = pd.read_csv('data/londonweather.csv')df2.head()
dfec4538fd08fadf1f323ef11f2b5fca.png
df2.Rain.describe()count    748.000000mean      50.408957std       29.721493min        0.30000025%       27.80000050%       46.10000075%       68.800000max      174.800000Name: Rain, dtype: float64
上面一共有748条记录, 即62年的记录。 箱型图
df2.plot.box(y='Rain')#df2.plot(y='Rain', kind='box')plt.show()
393d8743944793a41dd5f721397ec5f3.png

直方图
df2.plot(y='Rain', kind='hist')#df2.plot.hist(y='Rain')plt.show()
e1eb80dae55e039c4b7779eea860c45c.png 纵坐标的刻度可以通过bins设置
df2.plot(y='Rain', kind='hist', bins=[0,25,50,75,100,125,150,175, 200])#df2.plot.hist(y='Rain')plt.show()
acd7520adee0aae221075d0be5238e8c.png

多图并存
df.plot(kind='line',         y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化         subplots=True,   #多子图并存         layout=(2, 2),   #子图排列2行2列         figsize=(20, 10)) #图布的尺寸plt.show()
0d740fbd636a9f73ca1dc23eebf4a61f.png
df.plot(kind='bar',         y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化         subplots=True,   #多子图并存         layout=(2, 2),   #子图排列2行2列         figsize=(20, 10)) #图布的尺寸plt.show()
9bdbf94ad2029443bb87a2f560029e5c.png

加标题 给可视化起个标题
df.plot(kind='bar',         y=['Tmax', 'Tmin'], #2个变量可视化         subplots=True,   #多子图并存         layout=(1, 2),   #子图排列1行2列         figsize=(20, 5),#图布的尺寸         title='The Weather of London')  #标题plt.show()
19fd6a8a0c563dfffffd5a9afb688d31.png

保存结果 可视化的结果可以存储为图片文件
df.plot(kind='pie', y='Rain', legend=False, figsize=(10, 5), title='Pie of Weather in London')plt.savefig('img/pie.png')plt.show()
a9badb662140d83d6ea606f649a5ad8d.png

df.plot更多参数 df.plot(x, y, kind, figsize, title, grid, legend, style)
  • x 只有dataframe对象时,x可用。横坐标

  • y 同上,纵坐标变量

  • kind 可视化图的种类,如line,hist, bar, barh, pie, kde, scatter

  • figsize 画布尺寸

  • title 标题

  • grid 是否显示格子线条

  • legend 是否显示图例

  • style 图的风格

查看plot参数可以使用help
import pandas as pdhelp(pd.DataFrame.plot)
62ed6881df7486e8f05ce45dfcf7f40d.png
End. 来源:大邓和他的Python
[完] ▼ 往期精彩回顾 ▼

1、全网首秀,我用动画展现Pycharm十大实用技巧

2、Python 最强编辑器详细使用指南!

3、Git使用教程:最详细、最傻瓜、最浅显、真正手把手教!

4、微软官方上线了Python教程,7个章节就把Python说通了!

不日进,则日退

54b648d4052e13d0383992c8bcda968f.png

66dadfacc52cda1a9e0c55bdaffaedf0.png你点的每个赞,我都认真当成了喜欢
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP