首页 1 2 3 4 5 6 7

炸裂，pandas实现列转行的几个实用技巧

大家好，我是阳哥。

还是在2017年的时候，分享过这个主题：Pandas中如何将一列中的文本拆分为多行？

由于当时pandas没有直接的方法来处理这种情形，因此当时使用的方法较为周折些。

在 Pandas 版本 0.25版本之后，pandas 提供了 explode 方法来处理这种数据情况。

因此，今天来介绍下 explode 方法的使用，同时也放上以前的处理方法，大家可以对比下。

三种方法：

Method 1 （explode）
Method 2
Method 3

01数据背景

在数据处理过程中，经常会遇到以下类型的数据：

在同一列中，本该分别填入多行中的数据，被填在一行里了，然而在分析的时候，需要拆分成为多行。

在上图中，列名为 "Country" ，index 为 4 和 5 的单元格内，值为 UK/Australia 和 UK/Netherland 。

今天，我们来介绍将含有多值的内容分拆成多行的几种方法。加载数据如下：

import pandas as pd

df = pd.DataFrame({'Country':['China','US','Japan','EU','UK/Australia', 'UK/Netherland'],
               'Number':[100, 150, 120, 90, 30, 2],
               'Value': [1, 2, 3, 4, 5, 6],
               'label': list('abcdef')})
df

Out[2]:
         Country  Number  Value label
0          China     100      1     a
1             US     150      2     b
2          Japan     120      3     c
3             EU      90      4     d
4   UK/Australia      30      5     e
5  UK/Netherland       2      6     f

02Method-1

Method-1 主要是使用 pandas 的 explode 方法来处理。

根据 pandas 官方文档的介绍，explode 方法主要可以列表类似的情况拆分为多行。

列表类似(list-like)，指的是列表、元组、Series 和 numpy 的 ndarray 等类型。

需要注意的是，文字类型的文本类型(str) 是不可以直接用该方法进行处理的。

而咱们上面的数据，比如 UK/Netherland ，则不是 list-like 的数据。

因此，在使用 explode 方法之前，可以先使用 str.split() 方法将文本转换为列表，如下：

df['Country'] = df['Country'].str.split('/')
df

结果如下：

现在， Country 已经是列表类似的情况了，下一步可以使用 explode 方法来处理，如下：

df.explode('Country')

结果如下：

03Method-2

在早期的 Pandas 版本中，咱们需要分多个步骤来处理这种情况，如下：

将含有多值的列进行拆分，然后通过stack()方法进行变换，并通过index的设置来完成
用drop()方法从DataFrame中删除含有多值的列
然后用join()方法来合并

df.drop('Country', axis=1).join(df['Country'].str.split('/', expand=True).stack().reset_index(level=1, drop=True).rename('Country'))
Out[3]:
   Number  Value label     Country
0     100      1     a       China
1     150      2     b          US
2     120      3     c       Japan
3      90      4     d          EU
4      30      5     e          UK
4      30      5     e   Australia
5       2      6     f          UK
5       2      6     f  Netherland

过程分步介绍

df['Country'].str.split('/', expand=True).stack()
Out[4]:
0  0         China
1  0            US
2  0         Japan
3  0            EU
4  0            UK
   1     Australia
5  0            UK
   1    Netherland
dtype: object

df['Country'].str.split('/', expand=True).stack().reset_index(level=1, drop=True)
Out[5]:
0         China
1            US
2         Japan
3            EU
4            UK
4     Australia
5            UK
5    Netherland
dtype: object

df['Country'].str.split('/', expand=True).stack().reset_index(level=1, drop=True).rename('Country')
Out[6]:
0         China
1            US
2         Japan
3            EU
4            UK
4     Australia
5            UK
5    Netherland
Name: Country, dtype: object

df.drop('Country', axis=1)
Out[7]:
   Number  Value label
0     100      1     a
1     150      2     b
2     120      3     c
3      90      4     d
4      30      5     e
5       2      6     f

04Method-3

该方法的思路跟Method-2基本是一样的，只是在具体的细节方面有些差异。代码如下：

df['Country'].str.split('/', expand=True).stack().reset_index(level=0).set_index('level_0').rename(columns={0:'Country'}).join(df.drop('Country', axis=1))
Out[8]:
      Country  Number  Value label
0       China     100      1     a
1          US     150      2     b
2       Japan     120      3     c
3          EU      90      4     d
4          UK      30      5     e
4   Australia      30      5     e
5          UK       2      6     f
5  Netherland       2      6     f

过程分步介绍如下：

df['Country'].str.split('/', expand=True).stack().reset_index(level=0)
Out[9]:
   level_0           0
0        0       China
0        1          US
0        2       Japan
0        3          EU
0        4          UK
1        4   Australia
0        5          UK
1        5  Netherland

df['Country'].str.split('/', expand=True).stack().reset_index(level=0).set_index('level_0')
Out[10]:
                  0
level_0            
0             China
1                US
2             Japan
3                EU
4                UK
4         Australia
5                UK
5        Netherland

df['Country'].str.split('/', expand=True).stack().reset_index(level=0).set_index('level_0').rename(columns={0:'Country'})
Out[11]:
            Country
level_0            
0             China
1                US
2             Japan
3                EU
4                UK
4         Australia
5                UK
5        Netherland

df.drop('Country', axis=1)
Out[12]:
   Number  Value label
0     100      1     a
1     150      2     b
2     120      3     c
3      90      4     d
4      30      5     e
5       2      6     f

05小结

在 pandas 的 explode 方法出现以后，遇到类似的情形，建议优先考虑该方法。

explode 方法是将 list-like 的数据拆分为多行，还有时候，咱们是需要将这些数据拆分为多列的。

拆分为多列的案例，请参考下面的内容：

Pandas 的这个知识点，估计 80% 的人都得挂！

大家读完顺手点下右下角的 “在看” ，就是最大的鼓励和支持了。

Cartographer源码阅读2D-前端Submap生成及数据插入

Cartographer源码阅读-2D前端Submap生成及数据插入前端CSM位姿计算后，将激光点云转换到Local SLAM的坐标系下，插入submaps中，该submaps指的是前端LocalTrajec

10.JDK8和9的新特性

· 如果你使过几年Java，你就知道针对集合类，最常见的操作就是进行迭代，并将业务逻辑应用于各个元素，例如处理订单、交易和事件的列表。由于Java是命令式语言，J

Swin Transformer

Hierarchical 分层的 a general-purpose backbone 一个通用的骨干网络

dubbo笔记

先放一个官方文档的url：http://dubbo.apache

安装nodejs时候npm安装报错

当使用npm -v命令查看版本时，出现文件已存在和文件路径的错误信息提示，虽然后面也是显示了版本号，但是后续我安装cnpm时，不能安装。（只有安装成功，输入该命令时只有版本号的输出才算正确，这里我不是默认安装位置）

Vue3中深响应和浅响应等composition API 其他部分

1，shallowReactive 与 shallowRef shallowReactive : 只处理了对象内最外层属性的响应式(也就是浅响应式)；shallowR

HBase HA （完全分布式）高可用集群的搭建

这篇教程已经配置好了基于 Zookeeper 的 Hadoop HA，

如何制作CAB包

怎么这么多人问这个问题，其实Cabinet SDK讲得还不错哦 1、如果需要创建cab文件，首先需要Cabarc或者Makecab，它们随着Cabinet SDK的安装就有了，Cabinet SDK的下载地址是http://msdn.microsof

Leetcode学习之路

Leetcode 学习之路 039 组合总和