DataFrame是pandas常用的数据类型之一,表示带标签的可变二维表格。本文介绍如何创建DataFrame对象,后面会陆续介绍DataFrame对象的用法。
首先,使用pip、conda或类似工具正确安装扩展库numpy和pandas,然后按照Python社区的管理,使用下面的方式进行导入:
>>> import numpy as np
>>> import pandas as pd
接下来就可以通过多种不同的方式来创建DataFrame对象了,为了避免排版混乱影响阅读,直接在我制作的PPT上进行截图。
生成后面创建DataFrame对象时用到的日期时间索引:
创建DataFrame对象,索引为2013年每个月的最后一天,列名分别是A、B、C、D,数据为12行4列随机数。
创建DataFrame对象,索引与列名与上面的代码相同,数据为12行4列1到100之间的随机数。
根据字典来创建DataFrame对象,字典的“键”作为DataFrame对象的列名,其中B列数据是使用pandas的date_range()函数生成的日期时间,C列数据来自于使用pandas的Series()生成的一维带标签数组,D列数据来自于使用numpy生成的一维数组,E列数据为几个字符串,F列数据是几个相同的字符串。
下面图中的代码与上面代码的不同在于,C列使用index属性修改了整个DataFrame对象的索引。上面代码使用数字做索引,下面的代码使用字符串做索引。
除此之外,还可以使用pandas的read_excel()和read_csv()函数从Excel文件和CSV文件中读取数据并创建DateFrame对象,后面会单独进行介绍。