从磁盘中读取并并行处理

Question

15 浏览2023年4月15日

匿名的 2023年4月15日

0 Comments

这将是这里最基础、甚至可能是愚蠢的问题。当我们谈论使用多线程来更好地利用资源时。例如，一个应用程序从本地文件系统读取和处理文件。假设从磁盘读取文件需要5秒钟，处理文件需要2秒钟。

在上述情况下，我们说使用两个线程，一个用于读取，另一个用于处理，可以节省时间。因为即使一个线程正在处理第一个文件，另一个线程在并行中可以开始读取第二个文件。

问题：这是因为CPU的设计方式吗？也就是说，存在不同的处理单元和不同的读/写单元，所以这两个线程可以在单核机器上并行工作，因为它们实际上由不同的模块处理？还是这需要多个核心？

对不起，可能问题有些愚蠢。

0

3 答案

匿名的 · Answer 1 · 2023-09-15T22:51:26+00:00

从以上内容中，我们可以整理出以下问题的出现原因和解决方法：

问题：如何在从磁盘读取数据时并行处理数据？

原因：

1. 单核机器不支持并行处理。

2. 在某些情况下，使用线程进行并发处理可能会导致性能下降，例如在Android或Swing中，如果在主线程上进行大量计算会导致用户界面不响应。

解决方法：

1. 根据线程的实现方式，将处理过程委托给另一个线程可能会带来性能提升。例如，不使用同步线程会比使用同步线程性能更好。

2. 如果需要使用同步线程，可以考虑使用阻塞队列（BlockingQueue）来实现生产者-消费者模型。

3. 在单核机器上，最好使用单线程模型进行读取和处理操作，以避免数据竞争和性能下降。

4. 可以通过进行基准测试来评估不同方法的性能。

对于从磁盘读取数据并进行并行处理的问题，解决方法包括使用不同类型的线程实现、使用阻塞队列以及根据具体情况选择合适的处理模型。在单核机器上，最好使用单线程模型避免性能下降。可以通过进行基准测试来评估不同方法的性能。

匿名的 · Answer 2 · 2023-04-16T09:15:33+00:00

原因：从磁盘读取文件和并行处理之间的问题是由于单线程在等待从文件中读取数据时，不能同时进行处理文件的操作，这导致了CPU资源的浪费。

解决方法：使用多线程/多核的方式来同时进行文件读取和处理操作，以提高性能。

在理论上是可以的。单核处理器也有并行处理的能力。一个线程在等待从文件中读取数据（I/O等待），另一个线程在处理之前已经读取的文件。第一个线程实际上无法处于运行状态，直到I/O操作完成。在这种状态下，CPU资源基本上没有被使用。第二个线程消耗CPU资源并完成任务。事实上，多核CPU具有更好的性能。

如果读取一个文件，可以让一个线程与另一个线程同时处理第二个文件的读取吗？

为了解决这个问题，可以使用多线程或多核的方式，同时进行文件的读取和处理操作，以利用CPU资源，提高性能。以下是一个示例代码：


import threading
def read_file(file):
    # 从磁盘中读取文件的操作
    pass
def process_file(file):
    # 处理文件的操作
    pass
if __name__ == "__main__":
    file1 = "file1.txt"
    file2 = "file2.txt"
    # 创建两个线程，分别用于读取和处理文件
    read_thread = threading.Thread(target=read_file, args=(file1,))
    process_thread = threading.Thread(target=process_file, args=(file2,))
    # 启动线程
    read_thread.start()
    process_thread.start()
    # 等待线程结束
    read_thread.join()
    process_thread.join()

匿名的 · Answer 3 · 2023-09-17T14:13:38+00:00

在单个处理器上，通过时间切片实现多线程。一个线程会做一些工作，然后切换到另一个线程。

当一个线程在等待某个I/O操作，比如文件读取时，它会提前放弃CPU的时间片，让另一个线程利用CPU。

结果是相比于单个线程，即使在单个核心上，整体吞吐量也得到了改善。

下面是关键说明：

= 在CPU上执行工作
- I/O操作
_ 空闲

单个线程：

====--====--====--====--

两个线程：

====--__====--__====--__
____====--__====--__====

因此，可以看到在相同的时间内完成更多的工作，因为CPU保持繁忙，而不是之前的等待状态。存储设备也得到了更多的利用。

问题的出现原因是，当一个线程在等待I/O操作时，CPU的时间片被浪费了，没有被充分利用。为了解决这个问题，可以使用并行处理的方式，同时从磁盘中读取数据，并在CPU上进行处理。这样可以提高整体的吞吐量，使CPU和存储设备都能够得到更充分的利用。