Pandas 入门笔记

与numpy最大的不同时,Pandas更多的是操作异质数据,即不同类型的数据,从更浅白的语言来说,它就相当一个能自由使用的excel

数据结构

1.Series

series 由 值序列 与 索引 组成 ,常规定义

obj = pd.Series([1,2,3,4] ,index=[‘a’,’b’,’c’,’d’)

obj.index ->

obj.values ->

obj[‘a’] ->

从另一个角度而言,series 有点像 字典 ,每个索引都有对应的值。

但,可通过设置/不设置索引的值,从而让series里面是否创建这个值,如

obj = {‘a’:’aa’,’b’:’bb’,’c’:’cc’}

series = pd.Series(obj , index=[‘a’,’b’,’d’])

2.DataFrame

可以把它理解为series的高级版,除了有索引,他的值是多维的,就像excel表一样,每一行都能对应多个不同的值,当他的值是一维的时候,估计就跟series一样了。

data = {‘gender’:[‘man’,’girl’],’name’:'[‘hello’,’world’]}

obj = pd.DataFrame(data,index=[‘1′,’2’])

基本用法

reindex

obj.reindex( index, columns=[….])

frame.loc[[index],[state]]

选择

obj[‘index’]

obj[‘1’]

obj[[‘1′,’2′,’3’]]

obj[1:10]

obj[obj<2]

——以上都是对于series而言———

重点来了

data = pd.DataFrame(np.arange(0,16).reshape(4,4) , index=[‘a’,’b’,’c’,’d’] , colums =[‘one’,’two’,’three’,’four’])

data[‘two’] 与 data[[‘three’,’one’]] 是选择所有数据的该列。

但,

data[:2] 与data[data[‘three’]>5] 是选择的是数据

使用loc 和iloc 选择数据

data.loc[‘a’,[‘one’,’two’]]

data.iloc[2,[3,0,1]]

发表评论

电子邮件地址不会被公开。 必填项已用*标注