Pandas 是 Python 中一个强大的数据操作库,允许我们轻松操作和转换各种数据结构。拼接是 Pandas 中一个关键功能,它使我们能够将不同的数据框或序列连接在一起,从而形成一个新的、更大的数据结构。
Pandas 数据拼接:整合异质数据
拼接方法
Pandas 提供了许多不同的拼接方法,以满足各种需求。最常用的方法包括:
`concat()`:沿着行或列方向拼接数据框或序列。 `append()`:沿着行方向附加一个数据框或序列。 `join()`:基于键或索引值连接两个或多个数据框。
沿着行拼接
我们可以使用 `concat()` 方法沿着行方向拼接数据框或序列。例如,如果我们有两个数据框 `df1` 和 `df2`,我们可以使用以下代码将它们拼接在一起:
```python import pandas as pd
df1 = pd.DataFrame({'Name': ['John', 'Mary', 'Bob'], 'Age': [20, 25, 30]}) df2 = pd.DataFrame({'Name': ['Alice', 'Tom', 'Susan'], 'Age': [22, 28, 35]})
df = pd.concat([df1, df2], ignore_index=True) ```
这将创建一个新的数据框 `df`,它包含 `df1` 和 `df2` 的所有行。`ignore_index=True` 参数可确保新数据框具有自己的索引,避免重复索引。
沿着列拼接
我们还可以使用 `concat()` 方法沿着列方向拼接数据框或序列。为此,我们需要使用 `axis=1` 参数。例如:
```python df1 = pd.DataFrame({'Name': ['John', 'Mary', 'Bob']}) df2 = pd.DataFrame({'Age': [20, 25, 30]})
df = pd.concat([df1, df2], axis=1) ```
这将创建一个新的数据框 `df`,它包含 `df1` 和 `df2` 的所有列。
基于键或索引值连接
`join()` 方法用于基于键或索引值连接两个或多个数据框。例如,如果我们有两个数据框 `df1` 和 `df2`,它们都具有一个名为 `Name` 的共同列,我们可以使用以下代码将它们连接在一起:
```python df1 = pd.DataFrame({'Name': ['John', 'Mary', 'Bob'], 'Age': [20, 25, 30]}) df2 = pd.DataFrame({'Name': ['John', 'Alice', 'Tom'], 'City': ['London', 'Paris', 'Rome']})
df = df1.join(df2, on='Name') ```
这将创建一个新的数据框 `df`,它包含 `df1` 和 `df2` 中具有匹配 `Name` 值的行。
结论
版权声明:本文内容由互联。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发 836084111@qq.com 邮箱删除。