高效地在流中搜索字符串的方法

5 浏览2023年3月7日

匿名的 2023年3月7日

0 Comments

假设我有一个文本流（或Java中的Reader），我想检查是否存在特定的字符串。文本流可能非常大，所以一旦找到搜索字符串，我想立即返回true，并尽量避免将整个输入存储在内存中。

天真地说，我可能会尝试像这样做（在Java中）：

public boolean streamContainsString(Reader reader, String searchString) throws IOException {

char[] buffer = new char[1024];

int numCharsRead;

while((numCharsRead = reader.read(buffer)) > 0) {

if ((new String(buffer, 0, numCharsRead)).indexOf(searchString) >= 0)

return true;

}

return false;

}

当然，如果给定的搜索字符串出现在1k缓冲区的边界上，这种方法将无法检测到：

搜索文本："stackoverflow"

流缓冲区1："abc.........stack"

流缓冲区2："overflow.......xyz"

如何修改此代码，以便正确找到给定的搜索字符串，并跨越缓冲区的边界，但又不将整个流加载到内存中？

编辑：请注意，在搜索流中的字符串时，我们试图最小化从流中读取的次数（以避免网络/磁盘的延迟），并保持内存使用量恒定，而不管流中的数据量。实际上，字符串匹配算法的效率是次要的，但显然，如果能找到使用其中一种更有效的算法的解决方案，那将是很好的。

最佳方法查找文件中是否存在一个字符串

在Java中的字符串搜索算法

是否对我来说，使用Java indexOf（暴力方法）或其他一些子字符串算法更实用？

在字符串中搜索一个单词

如何在Java中查找字符串中的整个单词？

如何在文本文件中执行二分搜索

我该如何正确地检查一个字符串是否不包含特定的单词？

检查一个长度为100,000的字符串中是否存在另一个字符串。

如何在Java中以不区分大小写的方式检查一个字符串是否包含另一个字符串？

Java中的InputStream转换为String

在Java中在一个已排序（内存映射？）的文件中进行二分搜索。

在Java中的“Big dictionary”实现

在Java中，我如何检查一个字符串是否包含一个子字符串（忽略大小写）？

如何高效地将字符串包装成流（在.NET中）？

将DotNetZip内存流转换为字符串

在字符串中查找子字符串的最佳方法

编译器如何如此有效地优化getline()函数？

在Java中搜索二进制文件中的字节序列

循环数组的行为不符合预期。