使用NLTK创建一个新的语料库
- 论坛
- 使用NLTK创建一个新的语料库
11 浏览
使用NLTK创建一个新的语料库
我意识到通常对于我标题的问题,答案是去阅读文档,但我浏览了NLTK book,但它没有给出答案。我对Python还是比较新手。
我有一堆.txt
文件,我想能够使用NLTK提供的用于nltk_data
语料库的语料库函数。
我尝试过PlaintextCorpusReader
,但我无法进一步操作:
>>>import nltk >>>from nltk.corpus import PlaintextCorpusReader >>>corpus_root = './' >>>newcorpus = PlaintextCorpusReader(corpus_root, '.*') >>>newcorpus.words()
我如何使用punkt分割newcorpus
的句子?我尝试使用punkt函数,但punkt函数无法读取PlaintextCorpusReader
类?
你能告诉我如何将分割的数据写入文本文件吗?