python对数据处理的作用_python数据分析—1.1数据处理

引入需要的库

import numpy as np

import pandas as pd

from pandas import DataFrame,Series

创建一个需要的列表

series_obj = Series(['A','B','C','D','E'], index= ['行1','行2','行3','行4','行5'])

series_obj

对列表进行索引的两种方法

#标签索引

Series_obj['行4']

#整数索引

Series_obj[0]

创建一个需要的矩阵

np.random.seed(25)#设定生成随机数的种子

df_obj = DataFrame(np.random.rand(36).reshape(6,6),index = ['行1','行2','行3','行4','行5','行6'],columns = ['列1','列2','列3','列4','列5','列6'])

df_obj#创建了一个六行六列的矩阵

对矩阵进行索引

# object_name.loc[['行标签索引','行标签索引'], ['列标签索引','列标签索引']]

# 当调用.loc[]索引器，并传入一组行和列的标签索引时，将告诉Python仅选择和检索那些特定的行和列。

df_obj.loc[['行2','行5'],['列2','列5']]

数据切片

#作用：切出一段数据

# ['开始标签索引':'结束标签索引']

# 数据切片可以选择和检索从开始标签索引到结束标签索引以及之间的所有记录。

series_obj['行3':'行5']

series_obj[2:5]

#注意在python中遵循在集合中左闭右开

将数据与标量值比较

# object_name < 标量值

# 您可以使用比较运算符（例如 > 或 < ）对所有记录返回True/False值，表示每个元素与标量值的比较结果。

df_obj < 0.2

用标量值筛选数据

# object_name[object_name > 标量值]

# 也可以使用比较运算符和标量值进行索引，仅返回满足比较表达式结果的记录。

series_num = Series(np.arange(0,8),index=['行 1', '行 2', '行 3', '行 4', '行 5', '行 6','行 7','行 8'])

series_num[series_num > 6]