处理大文件的最快方式是什么？

26 浏览2023年7月5日

匿名的 2023年7月5日

0 Comments

我有多个3 GB的制表符分隔文件，每个文件有2000万行。所有行都必须独立处理，任意两行之间没有关联。我的问题是，哪种方法更快？

逐行读取？

with open() as infile:
    for line in infile:

处理过程并不是很复杂，我只是将列1的值存入List1，将列2的值存入List2等等。可能需要将一些列的值相加。

我在一台具有30GB内存的Linux机器上使用Python 2.7。文本格式为ASCII。

有没有办法并行加速处理速度？目前我正在使用前一种方法，但处理速度非常慢。使用CSVReader模块会有帮助吗？

我不一定要用Python，欢迎提供其他语言或数据库的使用建议。

在Python中读取非常大的文件的最佳方法

Python最快的读取大文本文件（几个GB）的方法

Python, 如何将非常大的文件读入数据框架中

如何在python中合并大型csv文件？

如何部分读取一个巨大的CSV文件？

如何读取一个大的csv文件（20G）

许多文本文件中的大量数据-如何处理？

阅读巨大的 .csv 文件。

高效地逐行读取Excel文件

使用多进程池读取CSV文件比使用CSV阅读器花费的时间更长。

python: 如何读取和处理一个18GB的csv文件？

在Python中读取大型CSV文件

在Pandas中解析大型CSV文件的最快方法

Python: 减少字典的内存使用量

从一个2GB的.csv文件中提取json中的值的最佳方法

在笔记本中，将大型csv文件上传以便使用Python Pandas的最快方法是什么？

Python readlines() 用法和高效读取的实践

在内存中加载大型字典时，会出现巨大的内存使用量。

从压缩的文本文件中读取行

Python3 - 有没有一种方法可以逐行遍历一个非常大的SQlite表，而不需要将整个表加载到本地内存中？