01. 引言
Bar Chart Race(条形竞赛图)是最近出现频率较高的一种可视化作品,这种图表主要表达的是一种数据随时间的整体变化趋势,较常见的的实现方式为使用flourish工具(https://flourish.studio/),此网站工具有免费版和付费版,如需快速制作,大家可以考虑使用这个网站的工具进行多种可视化作品的绘制与展示。抱着学习的目的,本期推文使用python可视化包matplotlib进行Bar Chart Race的绘制,这也是继上两篇动态图表教程后最后一篇matplotlib动态图表教程(毕竟原理都差不多,最多就是数据处理方法的不同,后面遇到好的动态作品,还是会推出matplotlib教程的。
02. 数据处理
导入所需库和数据:
数据处理
数据展示 如下(部分):
数据展示
数据形式较为简单,即国家名(name)、时间(time)、人口(population)、地区(regison),处理过程较为简单,数据可视化部分则有不少的知识点可以讲解。
03. 数据可视化
绘制此类可视化作品的静态图表较为简单,matplotlib的barh()方法即可绘制水平条形图(ps:为了更加接近于原始图表即条形图边角圆滑,但目前还没找到matplotlib的设置方法,有知道的小伙伴可以留言告知啊,这里提一下 ggplot2 的拓展包 ggchicklet 包可以实现条形图圆角处理,后期可以考虑利用此包出一篇推文。
(1)利用一年的数进行水平条形图那个图的绘制,如下:
数据处理
其中eq(current_test)为pandas数据筛选操作常用技巧,等价于gapminder.loc[gapminder['time'] == current_test,:] 布尔条件选择,具体内容可参考pandas官网教程。sort_values()实现数据以’pipulation’列进行降序排列。结果如下:
数据展示
(2)构建地区颜色字典
使用python字典给‘regison’进行颜色赋值,这里‘regison’分为4种,构建颜色字典如下:
数据处理
结果如下:(字典的构建可以在绘图过程中省去很多麻烦的步骤,如类别颜色赋值,感兴趣的同学可以多加练习)
数据处理
(3)构建地区与国家对应字典
使用Series的to_dict()方法构建字典,结果如下(部分):
可以看出 地区(region) 与 国家(name) 之间已构建出字典形式。上述两个字典的构建在本推文颜色赋值中非常重要,字典和列表等灵活应用,可以使平时的数据处理过程变得更加简单和高效。
(4)给barh及对应的文本赋颜色
操作如下:
解释:红方框中的为python列表生成式,此方法高效简单,在数据处理过程中非常有用,希望大家可以掌握。而
colors_region[region_color_dic[x]]操作则根据上述定义的两个字典实现颜色赋值,即先根据‘name’中的国家名在字典region_color_dic选择对应的’region’,将选择出的region名再在字典colors_region选择对应的颜色值。
国家名称及人口数文本添加代码如下:
首先使用enumerate(zip())实现同时遍历多个对象,红色方框内的与上面知识点类似,绿色方框内为数字格式化操作,也可采用以下方式:
'{:,.0f}k'.format(value)
以上即为绘制过程中需要注意的点,完整绘图代码如下:
完整代码
重要部分解释如下:
(1)第29行采用
sort_values(by='population',ascending=True).tail(12) 与之前的方法一样,只不过为升序排列,选取后12行数据。
(2) 第 48、49 行自定义x轴刻度标签形式
(3) 第 52 行消除y轴刻度
(4) 第 54 行设置x轴网格形式
(5) 第 60–66 行添加地区图例,网上较多类似教程无图例添加,使图表看起来不够完整,此方法通过plt.Rectangle()单独构建图例,如下:
下图为一年份数据绘制结果:
数据可视化
04. 总结
Bar Chart Race 图表的Matplotlib制作过程总体而言不难,此篇推文的可取之处有两点:python字典和列表表达式的灵活应用;Matplotlib多类别条形图图例的添加,希望这两点可以在大家的可视化绘制中有所帮助。至此Matplotlib动态图表系列推文先告一段落,当然后期遇到好的动态可视化作品,我还是会继续推出此系列教程[得意][得意]。今后一段时间将会陆续推出Matplotlib商务图表的制作教程,主要目的还是练习自己的可视化技巧及颜色搭配技巧。
更多C4D模型下载,请访问C4D模型网
优质模型尽在,https://www.c4dmodels.cn/