你愿意花十分钟系统了解数据分析方法吗?大数据应用

来源:互联网 / 作者:SKY / 2019-01-30 18:11 / 点击:
本系列文章将从数据特征的分布分析、对比分析、统计分析、贡献度分析(帕累托分析)、和特征的相关性分析来识别数据集整体上的一些重要性质。

通常在拿到一份数据进行相关的模型训练之前,我们需要进行数据清洗以便得到干净的数据。进一步需要找到与问题有关的特征信息,并把这些特征转换成特征矩阵的数值,这也就是机器学习实践中的重要步骤之一,特征工程。本系列文章将从数据特征的分布分析、对比分析、统计分析、贡献度分析(帕累托分析)、和特征的相关性分析来识别数据集整体上的一些重要性质。

本文目录

特征分布分析

特征对比分析

特征统计分析

特征贡献度分析

特征相关性分析

01、分布分析

理论介绍:分布分析是用来解释数据的分布类型和分布特征,显示其分布情况。所以可以对一开始拿到数据可以首先进行初步的分布分析。分布分析主要分成两种:

①对定量的数据进行分布分析

②对定性的数据进行分布分析。

对定量数据的分布分析按照如下步骤进行:

求极差

决定组距与组数

决定分点

绘制频率分布图

对定性的数据分布分析:

根据变量的分类类型来确定分组,然后使用图形对信息进行显示。

Python分析结果:

比如现在你爬取到某地区的二手房信息数据,针对这一批数据的房价你要做一次定量分布分析,以及对不同房子的朝向做一个定性的分布分析,以便初步的了解房子的一些特征分布。

参考房价定量分析

1.首先利用pandas读取数据并取前五条数据得到如下信息。

你愿意花十分钟系统了解数据分析方法吗?

2.求参考总价的分组区间并在原始数据中添加一个新的字段“参考总价分组区间”。

你愿意花十分钟系统了解数据分析方法吗?

3.计算每段参考总价的区间的频数、频率并绘制直方图。

你愿意花十分钟系统了解数据分析方法吗?

房屋朝向定性分析

对不同房屋朝向占比可绘制一个饼图。

你愿意花十分钟系统了解数据分析方法吗?

02、对比分析

理论介绍:对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。在对比分析中,选择合适的对比标准是十分关键的步骤,选择合适,才能做出客观的评价,选择不合适,评价可能得出错误的结论。

对比分析主要分为以下两种形式:

绝对数比较

利用这组指标绝对数进行对比,从而寻找差异的一种方法。

相对数比较

它是由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。由于研究目的和对比基础不用,相对数可以分为以下几种:结构相对数、比例相对数、动态相对数和空间相对数

Python分析结果:

绝对数比较案例:比如现在有某公司的A、B产品某月销量数据,这里我们可以对A、B产品的销量做绝对数对比。

你愿意花十分钟系统了解数据分析方法吗?

相对数比较案例:

结构相对数:在分组基础上,各组总量指标与总体的总量指标对比,计算出各组数量在总量中所占比重。例如,30天内A、B产品的日销售额,由于 A、B产品销售额量级不同,计算出A、B产品每日销售额占该月各自总销售额对比。

你愿意花十分钟系统了解数据分析方法吗?

比例相对数:比例相对数 = 总体中某一部分数值 / 总体中另一部分数值 。如 “基本建设投资额中工业、农业、教育投资的比例”、“男女比例”

空间相对数(横向):比如说同样的2017年北京和深圳膜拜单车使用量,空间是比较抽象的更多的是在时间相同的情况下,不同的元素的比较 。

你愿意花十分钟系统了解数据分析方法吗?

动态相对数(纵向):将同一现象在不同时期的指标数值对比,用以说明发展方向和变化的速度,如发展速度、增长速度等。例如求A产品的某月的定基增长速度额环比增长速度

你愿意花十分钟系统了解数据分析方法吗?

03、统计分析

理论介绍:对一组数据用统计指标定量的分析数据,一般从集中趋势和离中趋势两个方面来衡量数据。

数据的集中趋势:指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值 ,所以需要找到数据的统计平均数来衡量。统计平均数可分为,①算术平均数、加权算术平均数②位置平均数。

数据的离中趋势:指一组数据中各数据以不同程度的距离偏离中心的趋势,可用极差与分位差、方差与标准差、离散系数 等衡量。

Python结果分析:

对某一组数据分析其集中趋势结果:

阅读延展

1
3