您当前的位置：首页 > IT编程 > python
\| C语言 \| Java \| VB \| VC \| python \| Android \| TensorFlow \| C++ \| oracle \| 学术与代码 \| cnn卷积神经网络 \| gnn \| 图像修复 \| Keras \| 数据集 \| Neo4j \| 自然语言处理 \| 深度学习 \| 医学CAD \| 医学影像 \| 超参数 \| pointnet \| pytorch \| 异常检测 \| Transformers \| 情感分类 \| 知识图谱 \|

自学教程：pandas初学者容易犯的六个错误总结

51自学网 2022-02-21 10:50:11

python

这篇教程pandas初学者容易犯的六个错误总结写得很实用，希望能帮到您。

使用pandas自带的函数读取大文件

第一个错误与实际使用Pandas完成某些任务有关。具体来说我们在实际处理表格的数据集都非常庞大。使用pandas的read_csv读取大文件将是你最大的错误。

为什么?因为它太慢了!看看这个测试，我们加载TPS十月数据集，它有1M行和大约300个特性，占用了2.2GB的磁盘空间。

import pandas as pd%%timetps_october = pd.read_csv("data/train.csv")Wall time: 21.8 s

read_csv花了大约22秒。你可能会说22秒并不多。但是在一个项目中，需要在不同的阶段执行许多实验。我们会创建很多单独的脚本，用于清理、特征工程、选择模型，以及其他任务。多次等待数据加载20秒就变得很长了。此外，数据集可能会更大时间就会更长。那么有什么更快的解决方案呢?

解决方案是在这个阶段放弃Pandas，使用其他为快速IO设计的替代方案。我最喜欢的是datatable，但你也可以选择Dask, Vaex, cuDF等。这里是用datatable加载相同的数据集所需要的时间:

import datatable as dt  # pip install datatble%%timetps_dt_october = dt.fread("data/train.csv").to_pandas()------------------------------------------------------------Wall time: 2 s

只有2秒，10倍差距

没有矢量化

函数式编程中最重要的规则之一就是永远不要使用循环。似乎在使用 Pandas 时坚持这个“无循环”规则是加速计算的最佳方法。

函数式编程用递归代替循环。虽然递归也会出现各种问题（这个我们这里不考虑），但是对于科学计算来说使用矢量化是最好的选择！

矢量化是 Pandas 和 NumPy 的核心，它对整个数组而不是单个标量执行数学运算。 Pandas 已经拥有一套广泛的矢量化函数，我们无需重新发明轮子，只要关注我们的重点如何计算就好了。

在 Pandas 中进行Python 的大部分算术运算符（+、-、*、/、**）都以矢量化方式工作。此外，在 Pandas 或 NumPy 中看到的任何其他数学函数都已经矢量化了。

为了验证到速度的提高，我们将使用下面的 big_function，它以三列作为输入并执行一些无意义的算术作为测试：

def big_function(col1, col2, col3):    return np.log(col1 ** 10 / col2 ** 9 + np.sqrt(col3 ** 3))

首先，我们将这个函数与 Pandas 最快的迭代器
如何利用Python打开txt格式的文件
 2行Python实现给图片加水印效果

自学教程：pandas初学者容易犯的六个错误总结

目录

使用pandas自带的函数读取大文件

没有矢量化