Python数据攻略-DataFrame的创建与基础特性

news/2025/5/30 23:45:49

大家好,我是Mr数据杨,今天我带来的是一本既实用又有趣的Python教程笔记,主角是Pandas DataFrame。它就像《三国演义》中的诸葛亮,机智、实用,可以帮助我们轻松处理各种数据问题。

我们来看如何创建诸葛亮——这个DataFrame。就像诸葛亮的才华一样多元,我们有多种方式创建DataFrame。比如,使用字典来创建,宛如使用木牛流马,巧妙利用已有的资源。使用列表创建,像诸葛亮运用锦囊妙计一样,将多个元素巧妙组合。使用NumPy数组创建,这就像诸葛亮借东风一样,借用强大的NumPy库的力量。还可以通过文件读取创建,就像诸葛亮拿到天书一样,轻松获取大量信息。

诸葛亮之所以称霸三国,是因为他能准确获取和处理信息。我们可以检索索引和数据,就像诸葛亮洞察战况,深谙敌我之情况。将索引视为序列,就如同诸葛亮的“连环计”,将数据有序联结。同时,DataFrame可以轻松地将数据转为NumPy数组,就像诸葛亮轻易地将战术转换为战斗力。

而DataFrame的数据类型,正如诸葛亮的智谋,多种多样,可以随需应变。最后,我们可以知晓DataFrame的大小,就如同诸葛亮深思熟虑,准确评估战况。

文章目录

  • Pandas DataFrame
  • 创建 DataFrame
    • 使用 Dict 创建
    • 使用 List 创建
    • 使用 NumPy 数组创建
    • 文件读取创建
  • 检索索引和数据
    • 索引作为序列
    • 数据转为 NumPy 数组
    • 数据类型
    • DataFrame 大小

Pandas DataFrame

Pandas DataFrame 是包含以二维、行和列组织的数据、对应于行和列的索引的数据结构。

使用字典的方式创建DataFrame。

import pandas as pddf = pd.read_excel("Romance of the Three Kingdoms 13/人物详情数据.xlsx")
df.head()

在这里插入图片描述
设定条件查询数据的前 N 行或者后 N 行内容。

df.head(2)

在这里插入图片描述

df.tail(2)

在这里插入图片描述

查看某列数据的话直接使用字典取值的方式获取即可。

name = df['名前']
name 0      阿会喃
1       韋昭
2       伊籍
3       尹賞
4      尹大目... 
852    卑弥呼
853    韓世忠
854    梁紅玉
855     范蠡
856     荀灌
Name: 名前, Length: 857, dtype: object

也可以像获取类实例的属性一样访问该列数据。

df.名前0      阿会喃
1       韋昭
2       伊籍
3       尹賞
4      尹大目... 
852    卑弥呼
853    韓世忠
854    梁紅玉
855     范蠡
856     荀灌
Name: 名前, Length: 857, dtype: object

Pandas DataFrame 的每一列都是一个 pandas.Series 实例,保存一维数据及其索引的结构。可以像使用字典一样获取对象的单个项目,Series 方法是使用其索引作为键。

name [10]
'袁胤'

可以使用 .loc[] 访问器访问整行数据。

df.loc[10]

在这里插入图片描述
label 对应的行10,其中包含对应行数据之外,还提取了相应列的索引,返回的行也是一个 pandas.Series 实例。

创建 DataFrame

分别使用不同的方式创建DataFrame,创建之前先要导入对应的三方库。

import numpy as np
import pandas as pd

使用 Dict 创建

data = {'x': [1, 2, 3], 'y': np.array([2, 4, 8]), 'z': 100}
pd.DataFrame(data)x  y    z
0  1  2  100
1  2  4  100
2  3  8  100

可以用 columns参数控制列的顺序,用index控制行索引的顺序。

pd.DataFrame(d, index=[100, 200, 300], columns=['z', 'y', 'x'])z  y  x
100  100  2  1
200  100  4  2
300  100  8  3

使用 List 创建

字典键是列索引,字典值是 DataFrame 中的数据值。

l = [{'x': 1, 'y': 2, 'z': 100},{'x': 2, 'y': 4, 'z': 100},{'x': 3, 'y': 8, 'z': 100}]pd.DataFrame(l)x  y    z
0  1  2  100
1  2  4  100
2  3  8  100

还可以使用嵌套列表或列表列表作为数据值,并且创建时需要指明行、列索引。元组和列表创建的方式相同

l = [[1, 2, 100],[2, 4, 100],[3, 8, 100]]pd.DataFrame(l, columns=['x', 'y', 'z'])x  y    z
0  1  2  100
1  2  4  100
2  3  8  100

使用 NumPy 数组创建

arr = np.array([[1, 2, 100],[2, 4, 100],[3, 8, 100]])df_ = pd.DataFrame(arr, columns=['x', 'y', 'z'])
df_x  y    z
0  1  2  100
1  2  4  100
2  3  8  100

文件读取创建

可以在多种文件类型(包括 CSV、Excel、SQL、JSON 等)中保存和加载Pandas DataFrame 中的数据和索引。

先将生成的数据保存到不同的文件中。

import pandas as pddata = {'名前': ['阿会喃', '韋昭', '伊籍', '尹賞', '尹大目'],'字': ['-', '弘嗣', '機伯', '-', '-'],'読み': ['-', 'コウシ', 'キハク', '-', '-'],'性別': ['男', '男', '男', '男', '男'],'生年': [190, 204, 162, 194, 211],'登場': [217, 223, 189, 213, 230],'没年': [225, 273, 226, 260, 270],'寿命': [36, 70, 65, 67, 60],'死因': ['不自然死', '不自然死', '自然死', '自然死', '自然死'],'父親': ['-', '-', '-', '-', '-'],'母親': ['-', '-', '-', '-', '-'],'相性': ['62', '131', '77', '72', '38'],'列伝': ['孟獲の配下。第三洞の元帥。\n【演義】諸葛亮の南蛮征圧で、張翼に襲撃されて捕らえられる。董荼那ともども、諸葛亮に解放されて心服するが、同じく解放されながらも服従しない孟獲の命で沙口の守備に派遣される。次の戦いで馬岱との対戦を避けた董荼那が孟獲に処罰されると、董荼那と結託して孟獲を捕らえ蜀軍に引き渡した。その後、再び釈放された孟獲が諸葛亮に心服したものと誤解し、孟獲に誘い出されて董荼那と共に殺された。\n【正史】記述なし。','呉の幕僚。正史では、司馬昭の名を避けて、韋曜と記される。\n【演義】記述なし。\n【正史】太子・孫和の命で「博奕論」を著し、博奕(すごろく)が益体のない遊びだと論じた。孫亮が即位すると諸葛恪に推薦され、薛瑩、華覈らと共に「呉書」の編集に当たる。しかし、孫晧が即位すると「呉書」の編集方針を巡って孫晧と対立。下戸だったがむりやり酒を飲まされ、態度が反抗的だとして処刑された。華覈とは親交が篤く、華覈は最後まで韋昭の助命嘆願に奔走した。','劉表の幕僚。後に劉備に仕える。\n【演義】劉表が劉備から贈られた的盧を返した時、的盧の凶相が乗り手に祟るという逸話を劉備に伝える。蔡瑁が劉備暗殺を測った時は劉備に危機を伝え逃亡させた。劉表が死に、後を継いだ劉琮が早々に降伏すると、劉備に仕え関羽と共に荊州を守る。荊州が呂蒙の攻撃を受けると馬良と共に救援要請のため成都に向かい、関羽が死ぬと成都に残った。その後、劉備に皇帝になるよう勧めた。\n【正史】使者としての機知、応対を孫権に感心された。諸葛亮、法正、劉巴、李厳らと蜀科(蜀の法律)を作った。','天水の武将。魏に仕えた後、蜀に降る。\n【演義】姜維の友人。諸葛亮が天水を攻めた時、先に蜀に降伏していた姜維と連絡を取り合う。蜀軍が攻め寄せると同僚の梁緒と謀って城門を開き、蜀軍を招き入れた。\n【正史】諸葛亮が天水を攻めた時、天水太守の馬遵から異心ありと疑われる。馬遵が逃走したため、姜維、梁虔、梁緒と共に降伏。蜀の滅亡前に死んだ。','大目は字。名は不詳。曹爽の腹心。\n【演義】曹爽が司馬懿に処刑された後、仇を討つために偽って司馬師の部下となる。友人の文欽が毌丘倹と共に反乱を起こした時、文欽に司馬師の死が近いことを知らせようとするが、その意図が伝わらず追い返された。\n【正史】少年の頃、曹氏の召使いとなり、そのまま皇帝の側に仕えた。'],'商業': [0, 1, 5, 0, 0],'農業': [0, 0, 4, 0, 1],'文化': [0, 0, 5, 0, 0],'訓練': [2, 0, 0, 0, 0],'巡察': [1, 0, 0, 0, 0],'説破': [0, 1, 5, 0, 0],'交渉': [0, 0, 5, 2, 0],'弁舌': [0, 0, 4, 1, 0],'人徳': [0, 0, 0, 0, 0],'威風': [0, 0, 0, 0, 0],'神速': [0, 0, 0, 0, 0],'奮戦': [1, 0, 0, 0, 0],'連戦': [0, 0, 0, 0, 0],'攻城': [0, 0, 0, 0, 0],'兵器': [0, 0, 0, 0, 0],'堅守': [0, 0, 0, 0, 0],'水連': [0, 0, 0, 0, 0],'一騎': [0, 0, 0, 0, 0],'豪傑': [0, 0, 0, 0, 0],'鬼謀': [0, 0, 0, 0, 0],'音声': ['無骨男', '丁寧男', '策士男', '丁寧男', '老獪男'],'武器': ['刀', '弓', '弓', '弓', '弓'],'性格': ['猪突', '豪胆', '冷静', '冷静', '小心'],'義理': ['普通', '重視', '重視', '普通', '普通'],'勇愛': ['重視', '普通', '軽視', '普通', '重視'],'才愛': ['軽視', '重視', '最重視', '重視', '重視'],'分類': ['武官', '文官', '文官', '文官', '文官'],'武具\n興味': ['なし', 'なし', 'なし', 'なし', 'なし'],'書物\n興味': ['なし', 'あり', 'あり', 'なし', 'なし'],'宝物\n興味': ['あり', 'なし', 'なし', 'あり', 'あり'],'酒\n興味': ['あり', 'なし', '普通', '普通', 'なし'],'物欲': ['強欲', '無欲', '無欲', '普通', '無欲']}columns_name = ['名前', '字', '読み', '性別', '生年', '登場', '没年', '寿命', '死因', '父親', '母親', '相性','列伝', '商業', '農業', '文化', '訓練', '巡察', '説破', '交渉', '弁舌', '人徳', '威風', '神速','奮戦', '連戦', '攻城', '兵器', '堅守', '水連', '一騎', '豪傑', '鬼謀', '音声', '武器', '性格','義理', '勇愛', '才愛', '分類', '武具\n興味', '書物\n興味', '宝物\n興味', '酒\n興味', '物欲'
]df = pd.DataFrame(data=data,columns=columns_name)df.to_csv('data.csv')
df.to_excel('data.xlsx')

检索索引和数据

创建 DataFrame 后可以进行一些检索、修改操作。

索引作为序列

df.index
RangeIndex(start=0, stop=5, step=1)df.columns
Index(['名前', '字', '読み', '性別', '生年', '登場', '没年', '寿命', '死因', '父親', '母親', '相性','列伝', '商業', '農業', '文化', '訓練', '巡察', '説破', '交渉', '弁舌', '人徳', '威風', '神速','奮戦', '連戦', '攻城', '兵器', '堅守', '水連', '一騎', '豪傑', '鬼謀', '音声', '武器', '性格','義理', '勇愛', '才愛', '分類', '武具\n興味', '書物\n興味', '宝物\n興味', '酒\n興味', '物欲'],dtype='object')df.columns[0]
'名前'

用序列修改索引。

df.index = np.arange(10, 15)df.index
Int64Index([10, 11, 12, 13, 14], dtype='int64')df

在这里插入图片描述

数据转为 NumPy 数组

转化之后取值方式同List操作。

df.to_numpy()array([['阿会喃', '-', '-', '男', 190, 217, 225, 36, '不自然死', '-', '-', '62','孟獲の配下。第三洞の元帥。\n【演義】諸葛亮の南蛮征圧で、張翼に襲撃されて捕らえられる。董荼那ともども、諸葛亮に解放されて心服するが、同じく解放されながらも服従しない孟獲の命で沙口の守備に派遣される。次の戦いで馬岱との対戦を避けた董荼那が孟獲に処罰されると、董荼那と結託して孟獲を捕らえ蜀軍に引き渡した。その後、再び釈放された孟獲が諸葛亮に心服したものと誤解し、孟獲に誘い出されて董荼那と共に殺された。\n【正史】記述なし。',0, 0, 0, 2, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,'無骨男', '刀', '猪突', '普通', '重視', '軽視', '武官', 'なし', 'なし', 'あり', 'あり','強欲'],......['尹大目', '-', '-', '男', 211, 230, 270, 60, '自然死', '-', '-', '38','大目は字。名は不詳。曹爽の腹心。\n【演義】曹爽が司馬懿に処刑された後、仇を討つために偽って司馬師の部下となる。友人の文欽が毌丘倹と共に反乱を起こした時、文欽に司馬師の死が近いことを知らせようとするが、その意図が伝わらず追い返された。\n【正史】少年の頃、曹氏の召使いとなり、そのまま皇帝の側に仕えた。',0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,'老獪男', '弓', '小心', '普通', '重視', '重視', '文官', 'なし', 'なし', 'あり', 'なし','無欲']], dtype=object)

数据类型

数据值的类型,也称为数据类型或 dtypes,决定了 DataFrame 使用的内存量,以及计算速度和精度水平。

查看数据类型。

df.dtypes名前        objectobject
読み        object
性別        object
生年         int64
登場         int64
没年         int64
......dtype: object

使用.astype() 更改数据类型。

df_ = df.astype(dtype={'生年': np.int32, '没年': np.int32})df_.dtypes
名前        objectobject
読み        object
性別        object
生年         int32
登場         int64
没年         int32
......dtype: object

DataFrame 大小

.ndim.size.shape分别返回维度数、每个维度上的数据值数和数据值总数。

df_.ndim
2df_.shape
(5, 45)df_.size
225
文章来源:https://blog.csdn.net/qq_20288327/article/details/131050299
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:https://dhexx.cn/news/show-4633724.html

相关文章

relation-graph关系图谱组件2.0版本遇到的问题

前提:之前已经写过一篇1.1版本的问题,这里就不过多讲了(如果想要解决火狐低版本兼容,看那个就行) 这次主要讲的是和1.X版本的区别和一些其它问题 区别 参数名不同:以前的links>lines (虽然现在links也…

java debug调试工具

文章目录 java debug调试工具debugdebug运行断点如何运行 具体使用step intostep into Force step intoresume programstopview breakpointsmute breakpointsstep ourt Shift消除debug java debug调试工具 debug 就是调试工具,用来查看代码在运行工程数据的变化。 …

《Java并发编程实战》课程笔记(十一)

StampedLock:有没有比读写锁更快的锁? StampedLock 支持的三种锁模式 ReadWriteLock ⽀持两种模式:一种是读锁,一种是写锁。而 StampedLock 支持三种模式,分别是:写锁、悲观读锁和乐观读。 其中&#xff…

Java 面试题:Spring,Spring MVC,Spring Boot 之间什么关系?

来,先和我看张图: Spring全家桶了为了解决不同场景的问题,逐渐演化出多套生态环框,如:Spring、SpringMVC、SpringBoot、SpringCloud。 Spring MVC和Spring Boot都属于Spring,Spring MVC是基于Spring的一个…

SpringBootWeb AOP(上)

事务&AOP 1. 事务管理 1.1 事务回顾 事务是一组操作的集合,它是一个不可分割的工作单位。事务会把所有的操作作为一个整体,一起向数据库提交或者是撤销操作请求。所以这组操作要么同时成功,要么同时失败。 怎么样来控制这组操作&…

[洛谷]P2960 [USACO09OCT]Invasion of the Milkweed G(BFS,坑点多多)

、1:坐标是反的,(1,1)是在左下角,正常在右上角,所用建图的时候要小心 2: 加node(),搭配 中的构造 3: 不用判断位置是否越界,数组从1,1开始&…

51单片机银行自助排队叫号系统VIP热敏打印功能DY-SV17F语音播报

实践制作DIY- GC0138-银行自助排队叫号系统VIP 基于51单片机设计---银行自助排队叫号系统VIP 二、功能介绍: STC89C52最小系统板0.96寸OLED显示器DY-SV17F语音串口语音播报模块DS1302北京时间热敏打印机1个业务选择(取钱或者存钱)1个普通取号…

NEEPUSec CTF 2023 easymath

easymath 题目描述: from Crypto.Util.number import *flagbytes_to_long(bNeepu{xxx})N 738931348122338421499476261982330058997842307585754071200798137388701886017484620800095723028366934218646065252158059518352370641258869511690690571844077077623…

【网络安全】企业应急响应基础技能

windows 任务计划列表 1. 计算机管理窗口,选择 系统工具 中 任务计划程序 中的 任务计划程序库选项 可以查看任务计划的名称,状态,触发器等详细信息 2.powershell中输入get-scheduledtask 可以查看当前系统所有任务计划信息 任务路径,名称,状态等详细信息 3.命令行中输入s…

7. JVM调优实战及常量池详解

JVM性能调优 1. 阿里巴巴Arthas详解1.1 Arthas使用 本文是按照自己的理解进行笔记总结,如有不正确的地方,还望大佬多多指点纠正,勿喷。 课程内容: 1、阿里巴巴Arthas调优工具详解 2、GC日志详解与调优分析 3、Class常量池与运行…