Python-100-Days/Day66-70/68.Pandas的应用.md

1.5 KiB
Raw Blame History

Pandas的应用

Pandas是Wes McKinney在2008年开发的一个强大的分析结构化数据的工具集。Pandas以NumPy为基础数据表示和运算提供了用于数据处理的函数和方法对数据分析和数据挖掘提供了很好的支持同时Pandas还可以跟数据可视化工具Matplotlib很好的整合在一起非常轻松愉快的实现数据的可视化展示。

Pandas核心的数据类型是SeriesDataFrame,分别用于处理一维和二维的数据,除此之外还有一个名为Index的类型及其子类型,它为SeriesDataFrame提供了索引功能。日常工作中以DataFrame使用最为广泛因为二维的数据本质就是一个有行有列的表格想一想Excel电子表格和关系型数据库中的二维表。上述这些类型都提供了大量的处理数据的方法数据分析师可以以此为基础实现对数据的各种常规处理。

Series的应用

创建Series对象

####基本属性和方法

绘制图表

Index的使用

DataFrame的应用

创建DataFrame对象

基本属性和方法

索引和切片

相关运算

缺失值处理

数据离散化

数据的合并

交叉表和透视表

  1. 交叉表:根据一个数据系列计算另一个数据系列的统计结果得到的DataFrame对象。
  2. 透视表:将DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚合函数得到的结果。

分组和聚合

绘制图表