您当前的位置：首页 > 计算机 > 编程开发 > Python

数据分析之Pandas从入门到放弃：代码+实战，9分钟带你推开Pandas大门！！！

时间：03-18来源：作者：点击数：44

1. Pandas的基本定义

・在数据分析中，Pandas的使用频率很高

・Pandas可以说是基于NumPy构建的含有更高级数据结构和分析能力的工具包

・Series和DataFrame是两个核心数据结构，分别代表一维的序列和二维的表结构

・基于这两种数据结构，Pandas可以对数据进行导入、清洗、处理、统计和输出

2. Pandas的使用方法

2.1 Series

・Series是个定长的字典序列

・在存储的时候，相当于两个ndarry，这也是和字典结构最大的不同。因为字典结构，元素个数是不固定的

・Series的两个基本属性：

①index

②values

举个实例，来看一下Series的使用方法：

# -*- coding: utf-8 -*-

"""
@ auth : carl_DJ
@ time : 2020-8-28
"""


from pandas import Series,DataFrame

x1 = Series([1,2,3,4])
x2 = Series(data=[1,2,3,4],index=['a','b','c','d'])
#使用字典来创建
d = {'a':1,'b':2,'c':3,'d':4}
x3=Series(d)
print(f'x1打印的结果是:{x1}' )
print('='*20)
print(f'x2打印的结果是:{x2}')
print('='*20)
print(f'x3打印的结果是:{x3}')

结果如下：

2.2 DataFrame使用

・类似数据库表，包括了行索引和列索引，可以将DataFrame看成是由相同索引的Series组成的字典类型

我们在举个例子：

# -*- coding: utf-8 -*-

"""
@ auth : carl_DJ
@ time : 2020-8-28
"""

from pandas import DataFrame
data = {
        'Chinese':[66,88,93,11,66],
        'Math':[30,20,40,50,77],
        'English':[65,88,90,55,22]
        }
df1 = DataFrame(data)
df2 = DataFrame(
            data,
            index=['张三','李四','王五','赵刘','贾七'],
            columns=['Chinese','Math','English']
                )

print(f'df1打印的结果是:\n{df1}')
print('='*30)
print(f'df2打印的结果是:\n{df2}')

看一下效果

2.2.1 删除操作

・删除DataFrame的行与列

实例演示

#删除行
df2 = df2.drop(columns=['English'])
#删列
df2 = df2.drop(index=['张三'])

运行结果

2.2.2 去重操作

・去掉重复的值

#去掉重复的值
df1 = df1.drop_duplicates()

2.2.3 更改数据格式操作

・更改数据格式

#更改数据格式
df2['Chinese'].astype('str')
df2['Chinese'].astype(np.int64)

2.2.4 去掉数据间的空格操作

・去掉数据间的空格

#删除数据左右两边的空格
df2['Chinese'] = df2['Chinese'].map(str.split)

2.2.5 大小写转换操作

・全部大写

#全部大写转换
df2.columns = df2.columns.str.upper()

・全部小写

#全部小写转换
df2.columns = df2.columns.str.lower()

・首字母大写

#首字母大写
df2.columns = df2.columns.str.title()

2.2.6 数据清洗

・使用apply对数据进行清洗

apply是Pandas中自由度非常高的函数，使用频率非常高。

比如：

①对Math列的数值进行大小写转换

#对Math列进行大小写转换
df2['Math'] = df2['Math'].apply(str.upper)

②定义函数，在apply中使用

#定义函数，在apply中使用
def par_df(par):
    return par*2

df1['Chinese'] = df1['Chinese'].apply(par_df)

2.3 Pandas中的统计函数

2.3.1 基本数据统计用法

・count() 统计个数，空值NaN不计算

・describe() 一次性输出多个统计指标，包括：count, mean, std, min, max等

・min()最小值

・max()最大值

・sum()总和

・median()中位数

・var()方差

・std()标准差

・argmin() 统计最小值的索引位置

・argmax()统计最大值的索引位置

・idxmin() 统计最小值的索引值

・idxmax() 统计最大值的索引值

2.3.2 函数链接用法

・inner内连接

#内连接
df3 = pd.merge(df1, df2, how='inner')

・outer外连接

#外连接
df3 = pd.merge(df1, df2, how='outer')

・right右连接

#内连接
df3 = pd.merge(df1, df2, how='right')

・left左连接

#内连接
df3 = pd.merge(df1, df2, how='left')

2.3.3 loc函数及iloc函数的用法

•loc函数：通过行索引 “Index” 中的具体值来取行数据（如取"Index"为"A"的行）

• iloc函数：通过行号来取行数据（如取第二行的数据）

老规矩，上代码

提取行的实例：

# -*- coding: utf-8 -*-

"""
@ auth : carl_DJ
@ time : 2020-8-28
"""
from pandas import DataFrame
data = {
        'Chinese':[66,88,93,11,66],
        'Math':[30,20,40,50,77],
        'English':[65,88,90,55,22]
        }
df2 = DataFrame(
            data,
            index=['张三','李四','王五','赵刘','贾七'],
            columns=['Chinese','Math','English']
                )

#提取index为'张三'的行
print(f"loc函数提取index为'张三'的行的内容：\n {df2.loc[u'张三']}")
print("="*30)
#提取第1行内容
print(f"iloc函数提取第1行的内容：\n {df2.iloc[1]}")

运行结果

提取列的实例：

# -*- coding: utf-8 -*-

"""
@ auth : carl_DJ
@ time : 2020-8-28
"""
from pandas import DataFrame
data = {
        'Chinese':[66,88,93,11,66],
        'Math':[30,20,40,50,77],
        'English':[65,88,90,55,22]
        }
df2 = DataFrame(
            data,
            index=['张三','李四','王五','赵刘','贾七'],
            columns=['Chinese','Math','English']
                )

#提取列为Englis的所有内容
#使用loc函数获取分数
print(f"loc函数提取列为Englis的所有内容：\n {df2.loc[:,['English']]}")

print("="*30)

#提取第2列的所有内容
#使用iloc函数获取分数
print(f"iloc函数提取第2列的所有内容：\n {df2.iloc[:,2]}")

运行结果

提取列和行的多条数据：

# -*- coding: utf-8 -*-

"""
@ auth : carl_DJ
@ time : 2020-8-28
"""

from pandas import DataFrame
data = {
        'Chinese':[66,88,93,11,66],
        'Math':[30,20,40,50,77],
        'English':[65,88,90,55,22]
        }
df2 = DataFrame(
            data,
            index=['zhangsan','lisi','wangwu','zhaoliu','jiaqi'],
            columns=['Chinese','Math','English']
                )
#使用loc函数获取分数
loc_soc = df2.loc[['zhangsan','zhaoliu'],['Chinese','English']]
print(f'zhangsan，zhaoliu的Chinese，English成绩分别是：\n{loc_sco}')

#使用iloc函数获取分数
iloc_sco = df2.iloc[[0,3],[0,2]]
print(f'zhangsan，zhaoliu的Chinese，English成绩分别是：\n{iloc_sco}')

运行结果

2.4 数据分组

・group by用法

import numpy as np
import pandas as pd

#读取数据csv文件,采用gbk编码格式
data = pd.read_csv('data_info.csv',encoding='gbk')
result = data.groupby('sex').age([np.sum,np.mean])
#打印结果
print(f'结果内容显示为：\n{result}')

2.5 数据排序

・排序函数sort_values()

#对A11列从大到小进行排序
df.sort_values('A11', ascending=False)

・索引还原reset_index()

'''
reset_index():可以还原索引，重新变为默认的整型索引
inplace = True:不创建新的对象，直接对原始对象进行修改
'''
df.reset_index(inplace=True)

注：

这里的 sort_values 方法类似于 SQL中的order by 用法。

2.6读写文件

・读取csv文件

#读取csv文件
pd.read_csv('file_name')

・写入csv文件

#写入csv文件,不保存index
pd.to_csv('file_name',index=False)

2.7 合并两个Dataframe

・使用merge通过index来合并Dataframe

#合并两个Dataframe
df2 = df.merge(df2,left_index=True,right_index=True,how='left')

3. Pandas实战代码及参考文献

Pandas实战代码：

《Pandas 5行代码实现对excel 读写操作》

《Python3，pandas自动处理exlce数据及yagmail邮件自动发送》

Pandas参考资料：

《Pandas中文网》

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

来顶一下

返回首页

上一篇:Python3，pandas自动处理exlce数据及yagmail邮件自动发送下一篇:Python3：我低调的只用一行代码，就导入Python所有库！

高考生入学注意：这些大	【健康】纯净水、天然
14种竞赛生升学路径盘	excel后缀xls和xlsx有

首页

学习

工作

生活

兴趣组

电子

计算机

掌上机件

图库

游戏

考试与竞赛

黑板报

国学

外语

下载

故事汇

社区

课程

数据分析之Pandas从入门到放弃：代码+实战，9分钟带你推开Pandas大门！！！

1. Pandas的基本定义

2. Pandas的使用方法

2.1 Series

2.2 DataFrame使用

2.2.1 删除操作

2.2.2 去重操作

2.2.3 更改数据格式操作

2.2.4 去掉数据间的空格操作

2.2.5 大小写转换操作

2.2.6 数据清洗

2.3 Pandas中的统计函数

2.3.1 基本数据统计用法

2.3.2 函数链接用法

2.3.3 loc函数及iloc函数的用法

2.4 数据分组

2.5 数据排序

2.6读写文件

2.7 合并两个Dataframe

3. Pandas实战代码及参考文献