Pandas简单操作（学习总结）-百木园

Pandas 的主要数据结构是 Series （一维数据）与 DataFrame（二维数据），是一个提供高性能、易于使用的数据结构和数据分析工具。

接下来查看Pandas的基本使用：

# 导入模块
import pandas as pd
import numpy as np

# 读取文件
stu = pd.read_excel(\'./stu_data.xlsx\')
stu.head()

# 查看数据 （数据类型，是否有空值）
stu.info()

# 转换数据类型
stu[\'日期\'] = stu[\'日期\'].astype(\'str\')
stu.info()

切片操作

# iloc or loc切片 (学号，身高，体重）
stu.iloc[:,[0,2,3]]  # 获取学号,身高,体重，所有行信息
stu.loc[5:10,[\'学号\',\'身高\',\'体重\'] ]

查询操作

# sql查询语言 身高高于170   性别是女
stu.query(\'身高 > 170 and 性别 == \"女\"\')
# pandas查询
stu[ (stu[\'身高\'] > 170) & (stu[\'性别\'] ==  \"女\") ]

# 通过索引号获取信息
stu.query(\'10\')

排序操作

stu[\'身高\'].sort_values() # 默认正序
stu[\'身高\'].sort_values(ascending=False) # 默认正序

分组操作

# 按课程分组，查看分组里面的数据
stu = stu.groupby(\'课程\')
stu.groups

# 查看分组描述
stu.describe()

# 分组汇总
# stu.agg([\'mean\',\'std\']) # 分组后每一列的均值和标准差
print(stu.身高.agg(max))

数值变量分段

stu = pd.read_excel(\'./stu_data.xlsx\')
stu[\'新体重\'] = pd.cut(stu.体重,bins=[40,50,60,70,80,90],right=False)
stu.head()

时间拆分

# stu.日期
stu[\'年份\'] = stu.日期.dt.year
stu[\'月份\'] = stu.日期.dt.month
stu[\'天数\'] = stu.日期.dt.day
stu.head()

表连接

# 创建新Series对象
stu1 = pd.Series(np.arange(12345678900,12345678952),name=\'手机号\')
stu1

# 合并表
stu3 = pd.concat([stu,stu1],axis=1)
stu3.head()

来源：https://www.cnblogs.com/lxxduang/p/16521740.html
本站部分图文来源于网络，如有侵权请联系删除。

Pandas简单操作（学习总结）