使用NLTK创建一个新的语料库

11 浏览2023年6月13日

匿名的 2023年6月14日

0 Comments

我意识到通常对于我标题的问题，答案是去阅读文档，但我浏览了NLTK book，但它没有给出答案。我对Python还是比较新手。

我有一堆.txt文件，我想能够使用NLTK提供的用于nltk_data语料库的语料库函数。

我尝试过PlaintextCorpusReader，但我无法进一步操作：

>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()

我如何使用punkt分割newcorpus的句子？我尝试使用punkt函数，但punkt函数无法读取PlaintextCorpusReader类？

你能告诉我如何将分割的数据写入文本文件吗？

如何从文本文件中创建自己的NLTK文本？

在nltk中是否有英语单词语料库？

如何在NLTK中对一个字符串句子进行分词？

如何对文本语料进行分词？

将一个段落在NLTK中分割为句子，然后再将句子分割为单词。

如何调整NLTK句子分词器

NLTK Python word_tokenize

在NLTK中使用PunktSentenceTokenizer

如何使用NLTK从文本中提取引用

使用Stanford NLP的情感引擎和Python解析器？

Python的collections.Counter和nltk.probability.FreqDist之间的区别

在Java中使用Python

如何在Python中分割文件？

在Python中的WordNet词形还原和词性标注

为什么一些应该在nltk语料库中的单词缺失？

NLTK和语言检测

如何使用nltk或python去除停用词

使用NLTK WordNet查找专有名词

n-grams在python中，四元组，五元组，六元组？

NLTK和停用词失败 #lookuperror

使用NLTK创建一个新的语料库

0 答案