python数据分析(3)——数据特征分析(下)

python小能手

发布日期: 2018-12-24 09:11:55 浏览量: 1286
评分:
star star star star star star star star star_border star_border
*转载请注明来自write-bug.com

1. 周期性分析

周期性分析是探索某个变量是否随这时间的变化而呈现出某种周期变化趋势。

时间尺度较长的有年度性、季节性;较短的有月度、周度性;甚至更短的天、小时。

2. 贡献度(帕累托)分析

20/80定律,同样的投入放在不同的地方会产生不同的效益。

例如对于一个公司,80%的利润常常来源于20%的产品,其余80%产品只产生了20%利润。

帕累托图用双直角坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,折线表示累积频率,横坐标表示影响的各项因素,按影响程度的大小(即出现频数多少)从左到右排列,通过对帕累托图的观察分析,可以抓住影响的主要因素,从而优先解决主要问题。

数据为catering_dish_profit.xls

代码为

  1. #-*- coding: utf-8 -*-
  2. #菜品盈利数据 帕累托图
  3. from __future__ import print_function
  4. import pandas as pd
  5. #初始化参数
  6. dish_profit = 'catering_dish_profit.xls' #餐饮菜品盈利数据
  7. data = pd.read_excel(dish_profit, index_col = u'菜品名')
  8. data = data[u'盈利'].copy()
  9. data.sort_values(ascending=False)
  10. import matplotlib.pyplot as plt #导入图像库
  11. plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  12. plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  13. plt.figure()
  14. data.plot(kind='bar')
  15. plt.ylabel(u'盈利(元)')
  16. p = 1.0*data.cumsum()/data.sum()
  17. p.plot(color = 'r', secondary_y = True, style = '-o',linewidth = 2)
  18. plt.annotate(format(p[6], '.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9), arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) #添加注释,即85%处的标记。这里包括了指定箭头样式。
  19. plt.ylabel(u'盈利(比例)')
  20. plt.show()

3. 相关性分析

3.1 直接绘制散点图

判断两个变量是否具有线性相关关系的最最直观的方法是直接绘制散点图。

3.2 绘制散点图矩阵

需要同时考察多个变量间的相关关系,使用散点图矩阵。

代码是

  1. # Seaborn visualization library
  2. import seaborn as sns
  3. # Create the default pairplot
  4. sns.pairplot(df)

3.3 计算相关系数

3.3.1 Pearson相关系数

3.3.2 Spearman秩相关系数

3.3.3 判定系数

  1. #-*- coding: utf-8 -*-
  2. #餐饮销量数据相关性分析
  3. from __future__ import print_function
  4. import pandas as pd
  5. catering_sale = 'catering_sale_all.xls' #餐饮数据,含有其他属性
  6. data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据,指定“日期”列为索引列

data.corr() #相关系数矩阵,即给出了任意两款菜式之间的相关系数
data.corr()[u’百合酱蒸凤爪’] #只显示“百合酱蒸凤爪”与其他菜式的相关系数
data[u’百合酱蒸凤爪’].corr(data[u’翡翠蒸香茜饺’]) #计算“百合酱蒸凤爪”与“翡翠蒸香茜饺”的相关系数

上传的附件 cloud_download catering_dish_profit.xls ( 25.09kb, 8次下载 ) cloud_download catering_sale_all.xls ( 27.14kb, 8次下载 ) cloud_download correlation_analyze.py ( 0.64kb, 5次下载 ) cloud_download dish_pareto.py ( 0.97kb, 4次下载 )

发送私信

学习python,勤学勤练,永不放弃

13
文章数
3
评论数
eject