为什么一些应该在nltk语料库中的单词缺失？

Question

16 浏览2023年3月31日

匿名的 2023年3月31日

0 Comments

NLTK的词库中没有短语\"okay\"、\"ok\"、\"Okay\"。这是为什么呢？

0

2 答案

匿名的 · Answer 1 · 2023-04-18T09:06:15+00:00

有些词语应该出现在nltk corpus中，但却没有出现的原因可能是原始的/usr/share/dict文件中缺少一些词语，如'failed'和'failings'。使用wordnet也无法解决这个问题，因为它只添加了一些特定的失败类型，而没有添加基本的词语。解决这个问题的方法是将更全面的词语集合从Ubuntu18.04的/usr/share/dict/american-english文件中合并进去。可以在nltk_data的问题相关页面中找到一个zip文件，其中包含了这个更全面的词语集合。希望这个提供的zip文件对于解决问题有所帮助。

匿名的 · Answer 2 · 2023-04-23T03:17:33+00:00

问题的出现原因是nltk.corpus.words是从Unix的字典文件中获取的，因此只包含Unix字典中的单词，而不是包含所有的单词。为了解决这个问题，可以通过将nltk.corpus.wordnet.words()中的单词添加到words列表中来扩展单词列表。另外，还可以使用大规模的文本语料库，如维基百科的转储文件，通过分词和提取所有唯一单词的方式来扩展单词列表。这样就能够得到更完整的单词列表。