更新了数据分析部分的内容

pull/724/head
jackfrued 2020-12-24 12:04:10 +08:00
parent a7b48eb8ce
commit 0d01379603
1 changed files with 19 additions and 8 deletions

View File

@ -24,14 +24,25 @@
### 数据分析的流程 ### 数据分析的流程
一个完整的数据分析流程应该包含以下几个方面,当然因为行业和工作内容的不同会略有差异 我们提到数分析这个词很多时候可能指的都是**狭义的数据分析**,这类数据分析主要目标就是生成可视化报表并通过这些报表来洞察业务中的问题。**广义的数据分析**还包含了数据挖掘的部分,不仅要通过数据实现对业务的监控和分析,还要利用机器学习算法,找出隐藏在数据背后的知识,并利用这些知识为将来的决策提供支撑。简单的说,**一个完整的数据分析应该包括基本的数据分析和深入的数据挖掘两个部分**
1. 确定目标(输入):理解业务,确定要解决的问题 基本的数据分析工作一般包含以下几个方面的内容,当然因为行业和工作内容的不同会略有差异。
2. 收集数据(数据库、电子表格、三方接口、网络爬虫、开放数据集、……)
3. 数据清洗(数据清洗、数据变换、特征工程、……) 1. 确定目标(输入):理解业务,确定指标口径
4. 探索数据(分组、聚合、拼接、运算、可视化、……) 2. 获取数据:数据库、电子表格、三方接口、网络爬虫、开放数据集、……
5. 模型迭代(选择模型、应用算法、模型调优、……) 3. 清洗数据:缺失值处理、异常值处理、格式化处理、数据变换、归一化、离散化、……
6. 模型部署输出模型落地改进业务A/B测试报告撰写 4. 探索数据:运算、统计、分组、聚合、可视化(趋势、变化、分布等)、……
5. 数据报告(输出):数据发布,工作成果总结汇报
6. 分析洞察(后续):数据监控、发现趋势、洞察异常、……
深入的数据挖掘工作应该包含一下几个方面的内容,当然因为行业和工作内容的不同会略有差异。
1. 确定目标(输入):理解业务,明确挖掘目标
2. 数据准备:数据采集、数据描述、数据探索、质量判定、……
3. 数据加工:提取数据、清洗数据、数据变换、归一化、离散化、特殊编码、降维、特征选择、……
4. 数据建模:模型比较、模型选择、算法应用、……
5. 模型评估:交叉检验、参数调优、结果评价、……
6. 模型部署(输出):模型落地,业务改进,运营监控、报告撰写
### 数据分析相关库 ### 数据分析相关库
@ -234,7 +245,7 @@ Notebook是基于网页的用于交互计算的应用程序可以用于代码
- **分位数**将一个随机变量的概率分布范围分为几个具有相同概率的连续区间比如最常见的中位数二分位数median就是将数据集划分为数量相等的上下两个部分。除此之外常见的分位数还有四分位数quartile、百分位数percentile等。 - **分位数**将一个随机变量的概率分布范围分为几个具有相同概率的连续区间比如最常见的中位数二分位数median就是将数据集划分为数量相等的上下两个部分。除此之外常见的分位数还有四分位数quartile、百分位数percentile等。
- 中位数:${Q}_{\frac{1}{2}}(x)=\begin{cases} x_{\frac{n+1}{2}}, \quad &n \ is \ odd \\ (x_{\frac{n}{2}}+x_{{\frac{n}{2}}+1})/2, \quad &n \ is \ even\end{cases}$ - 中位数:当数据量$n$是奇数时,${Q}=x_{\frac{n+1}{2}}$,当数据量$n$是偶数时,$Q=(x_{\frac{n}{2}} + x_{{\frac{n}{2}}+1}) / 2$。
- 四分位数: - 四分位数: