高效地逐行读取Excel文件

Question

16 浏览2023年2月3日

匿名的 2023年2月4日

0 Comments

我正在尝试处理一个大约有60万行和10列的Excel文件。

我想逐行（或逐行）执行一些程序，就像迭代器（类似于txt/csv文件）一样。然而，如果我使用xlrd或pandas读取Excel文件，打开文件需要大约2-3分钟的时间。

我想知道是否有可能高效地逐行读取Excel文件，这样我就可以在每次尝试时只等待很短的时间来验证我的程序的前10行。

编辑：谢谢建议在处理之前将Excel文件转换为csv。然而，我必须为用户创建一个一键式程序。所以，如果可能的话，我仍然希望找到一种直接高效读取Excel文件的方法。

0

2 答案

匿名的 · Answer 1 · 2023-03-08T23:36:52+00:00

读取Excel文件逐行的效率问题及解决方法

Excel文件实际上是一个包含每个工作表的XML文件的压缩文件夹，也许通过将该文件作为zip文件打开，并使用XML库逐行读取数据会更高效？

当我们需要读取大型Excel文件时，逐行读取可以是一种有效的方法。然而，如果我们直接打开Excel文件并使用Excel库来逐行读取数据，可能会遇到效率问题。这是因为Excel文件实际上是一个zip文件夹，其中包含了多个XML文件，每个XML文件代表一个工作表。因此，我们可以通过将Excel文件作为zip文件进行处理，并使用XML库来读取每一行的数据，从而提高读取效率。

下面是一个示例代码，演示了如何以更高效的方式逐行读取Excel文件：

import zipfile
import xml.etree.ElementTree as ET
# 打开Excel文件作为zip文件
with zipfile.ZipFile('your_excel_file.xlsx', 'r') as archive:
    # 遍历zip文件中的所有文件
    for file_name in archive.namelist():
        # 检查文件是否为XML文件
        if file_name.endswith('.xml'):
            # 打开XML文件
            with archive.open(file_name) as xml_file:
                # 使用ElementTree库解析XML文件
                tree = ET.parse(xml_file)
                root = tree.getroot()
                
                # 遍历XML文件的每一行数据
                for row in root.iter('{http://schemas.openxmlformats.org/spreadsheetml/2006/main}row'):
                    # 处理每一行的数据
                    for cell in row.iter('{http://schemas.openxmlformats.org/spreadsheetml/2006/main}c'):
                        data = cell.find('{http://schemas.openxmlformats.org/spreadsheetml/2006/main}v').text
                        # 在这里进行数据处理或保存
                        
                        # 输出每一行的数据
                        print(data)

通过将Excel文件作为zip文件打开，并使用XML库来解析每一行的数据，我们可以更高效地读取大型Excel文件。这种方法避免了直接使用Excel库来处理整个文件，而是将其拆分为多个XML文件，并逐行读取每个XML文件的数据。

总结起来，通过将Excel文件作为zip文件处理，并使用XML库逐行读取数据，可以提高读取大型Excel文件的效率。这种方法利用了Excel文件的内部结构，将其拆分为多个XML文件，并逐行解析每个XML文件的数据。这种解决方法在处理大型Excel文件时非常实用。

匿名的 · Answer 2 · 2023-04-11T21:09:00+00:00

读取Excel文件时，有时我们只需要读取其中的部分行数据，而不是全部数据。pandas库中的read_excel函数提供了一个nrows参数，用于控制读取的行数。例如，使用pd.read_excel(your_xlsx_file.xlsx, nrows=10)可以读取前10行数据。如果需要从文件的特定位置开始读取，可以使用skiprows参数控制。

然而，在某些情况下，即使使用了nrows参数，读取Excel文件的效率仍然不高。有用户尝试了pd.read_excel(file, nrows=10)并没有减少读取时间。经过反复尝试和讨论，发现pandas库中并没有.read_xlsx方法，因此该方法无法实现。

针对这个问题，有用户提出了一个解决方案：将Excel文件转换为.csv文件，然后使用datatable模块来读取数据。具体操作是先将Excel文件转换为.csv格式，然后使用datatable.fread(converted_csv)函数来读取数据。这种方法能够提高读取大型Excel文件的效率。

总结起来，对于需要高效读取Excel文件的情况，可以通过控制nrows参数和skiprows参数来实现。如果使用pandas库的read_excel函数仍然效率较低，可以考虑将Excel文件转换为.csv文件，并使用datatable模块来读取数据。这样可以提高读取大型Excel文件的效率。