2025年3月27日 星期四 甲辰(龙)年 月廿六 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 编程开发 > Python

pandas使用

时间:03-29来源:作者:点击数:37

Pandas

5.1pandas介绍

1.pandas概念

  • 开源的数据挖掘库
  • 用于数据探索
  • 封装matplotlib ,numpy

2.案例分析

  • 1.创建DataFrame
  • pd.DataFrame(ndarray)
  • 2创建日期
  • pd.date_range()
  • start ---开始日期
  • end --结束日期
  • periods ---时间跨度
  • freq -- 统计时间方式

3.DataFrame介绍

1.DateFrame属性

  • 对象.shape ----看形状
  • 对象.index --行索引
  • 对象.columns ---列索引
  • 对象.value ---获取值
  • 对象.T ---转置
  • 对象.head() --- 查看前几行
  • 对象.tail() --后几行

2.dataframe设置索引

  • 1.修改行列索引
  • 必须整行或者整列去修改
  • 2.重设索引
  • 对象.reset_index()
  • 3.设置新的索引
  • 对象.set_index()
  • 如果设置索引是两个时候就是multiIndex

4.multiIndex和panel类比三维数组

1.multiIndex

  • 对象.index
  • 对象.index.names

2.panel —已弃用

  • 直接没法进行查看里边的值,需要通过索引获取
  • 对象[:,:,""]

5.series – 一维数组

1.创建

  • - 通过ndarray创建
  • - 指定索引创建
  • - 通过字典创建
  •  

2.属性

  • - 对象.index
  • - 对象.value

5.2基本数据操作

1.索引操作

  • 1.直接获取 --- 先列后行
  • 2.loc --- 先行后列,索引值
  • 3.iloc ----先行后列,索引值的下标
  • 4.ix---先行后列,混合索引

2.赋值操作

  • 1.对象[""]
  • 2.对象.属性值

3.排序

1.dataframe

  • 对象.sort_values()
  • by ----按照什么排序
  • ascending ----升降序
  • 对象.sort_index()
  • 注意:by这个参数可以接收多个值,优先按照第一个索引值排序,如果相同,按照后面
  • 2.series
  • 对象.sort_values()
  • 对象.sort_index()

5.3DataFrame运算

1.算术运算

  • 直接使用方法,add sub。。。。。
  • 也可以用符号

2.逻辑运算

2.1逻辑运算符号

  • 直接判断
  • 2.2逻辑计算函数
  • 对象.query() 传入字符串
  • 对象.isin()判断是否包含

3.统计运算

  • 对象.describe()

统计函数

  • sum Sum of values
  • mean Mean of values
  • median Arithmetic median of values
  • min Minimum
  • max Maximum
  • mode Mode
  • abs Absolute Value
  • prod Product of values
  • std Bessel-corrected sample standard deviation
  • var Unbiased variance
  • idxmax compute the index labels with the maximum
  • idxmin compute the index labels with the minimum
  • mode --众数
  • idxmax ---最大值索引
  • idxmin --最小值索引

4.累计统计函数

  • 函数 作用
  • cumsum 计算前1/2/3/…/n个数的和
  • cummax 计算前1/2/3/…/n个数的最大值
  • cummin 计算前1/2/3/…/n个数的最小值
  • cumprod 计算前1/2/3/…/n个数的积

5.自定义运算

  • apply(fuc,axis=)
  • func ---自定义函数

5.7高级处理----数据离散化

1.什么是数据离散化

  • 把一些数据分到某个区间,最后用不同符号,活或者数字表达

2.数据离散化api

  • pd.qcut() ----把数据大致分为数量相等的几类
  • pd.cut() ---指定分组几个

数量统计

  • 对象.value_counts()

3.one-hot编码

  • 就是把数据转换成0,1统计类型
  • 别名:哑变量,热独编码

api:

  • pd.get_dummies()

5.8高级处理 --合并

  • pd.concat()
  • axis=
  • pd.merge()
  • left -- 左表
  • right --右表
  • on --指定键
  • how --按照什么方式拼接

5.9交叉表与透视表

  • 1.什么是交叉表,透视表
  • 就是探索亮列数据之间的关系
  • 2.pd.crosstable()
  • 返回具体的数量
  • 3.对象.piovt_table()
  • 返回一个百分占比
  • 5.10高级处理-分组与聚合
  • 1.api
  • 对象.groupby()
  • 参数:as_index -- 是否进行索引
  • 注意:可以对数据多次分组,需要里面传递一个列表
方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
上一篇:matplotlib使用 下一篇:Numpy使用
推荐内容
相关内容
栏目更新
栏目热门