为什么一些应该在nltk语料库中的单词缺失?

16 浏览
0 Comments

为什么一些应该在nltk语料库中的单词缺失?

NLTK的词库中没有短语\"okay\"、\"ok\"、\"Okay\"。这是为什么呢?

0
0 Comments

有些词语应该出现在nltk corpus中,但却没有出现的原因可能是原始的/usr/share/dict文件中缺少一些词语,如'failed'和'failings'。使用wordnet也无法解决这个问题,因为它只添加了一些特定的失败类型,而没有添加基本的词语。解决这个问题的方法是将更全面的词语集合从Ubuntu18.04的/usr/share/dict/american-english文件中合并进去。可以在nltk_data的问题相关页面中找到一个zip文件,其中包含了这个更全面的词语集合。希望这个提供的zip文件对于解决问题有所帮助。

0
0 Comments

问题的出现原因是nltk.corpus.words是从Unix的字典文件中获取的,因此只包含Unix字典中的单词,而不是包含所有的单词。为了解决这个问题,可以通过将nltk.corpus.wordnet.words()中的单词添加到words列表中来扩展单词列表。另外,还可以使用大规模的文本语料库,如维基百科的转储文件,通过分词和提取所有唯一单词的方式来扩展单词列表。这样就能够得到更完整的单词列表。

0