百木园-与人分享,
就是让自己快乐。

Pandas简单操作(学习总结)

Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),是一个提供高性能、易于使用的数据结构和数据分析工具。


接下来查看Pandas的基本使用:

 

# 导入模块
import pandas as pd
import numpy as np

 

# 读取文件
stu = pd.read_excel(\'./stu_data.xlsx\')
stu.head()

 

 

# 查看数据 (数据类型,是否有空值)
stu.info()

 

 

# 转换数据类型
stu[\'日期\'] = stu[\'日期\'].astype(\'str\')
stu.info()

 

 切片操作

# iloc or loc切片 (学号,身高,体重)
stu.iloc[:,[0,2,3]]  # 获取学号,身高,体重,所有行信息
stu.loc[5:10,[\'学号\',\'身高\',\'体重\'] ]

 

 

查询操作

# sql查询语言 身高高于170   性别是女
stu.query(\'身高 > 170 and 性别 == \"女\"\')
# pandas查询
stu[ (stu[\'身高\'] > 170) & (stu[\'性别\'] ==  \"\") ]

 

 

# 通过索引号获取信息
stu.query(\'10\')

 

 

排序操作

stu[\'身高\'].sort_values() # 默认正序
stu[\'身高\'].sort_values(ascending=False) # 默认正序

 

 

 

分组操作

# 按课程分组,查看分组里面的数据
stu = stu.groupby(\'课程\')
stu.groups

 

 

# 查看分组描述
stu.describe()

 

 

# 分组汇总
# stu.agg([\'mean\',\'std\']) # 分组后每一列的均值和标准差
print(stu.身高.agg(max))

 

 

数值变量分段

stu = pd.read_excel(\'./stu_data.xlsx\')
stu[\'新体重\'] = pd.cut(stu.体重,bins=[40,50,60,70,80,90],right=False)
stu.head()

 

 

时间拆分

# stu.日期
stu[\'年份\'] = stu.日期.dt.year
stu[\'月份\'] = stu.日期.dt.month
stu[\'天数\'] = stu.日期.dt.day
stu.head()

 

 

表连接

# 创建新Series对象
stu1 = pd.Series(np.arange(12345678900,12345678952),name=\'手机号\')
stu1

 

 

# 合并表
stu3 = pd.concat([stu,stu1],axis=1) stu3.head()

 

 

 


来源:https://www.cnblogs.com/lxxduang/p/16521740.html
本站部分图文来源于网络,如有侵权请联系删除。

未经允许不得转载:百木园 » Pandas简单操作(学习总结)

相关推荐

  • 暂无文章