使用NLTK创建一个新的语料库

11 浏览
0 Comments

使用NLTK创建一个新的语料库

我意识到通常对于我标题的问题,答案是去阅读文档,但我浏览了NLTK book,但它没有给出答案。我对Python还是比较新手。

我有一堆.txt文件,我想能够使用NLTK提供的用于nltk_data语料库的语料库函数。

我尝试过PlaintextCorpusReader,但我无法进一步操作:

>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()

我如何使用punkt分割newcorpus的句子?我尝试使用punkt函数,但punkt函数无法读取PlaintextCorpusReader类?

你能告诉我如何将分割的数据写入文本文件吗?

0