在加载一个word2vec模块时发生了'utf-8'解码错误。

8 浏览
0 Comments

在加载一个word2vec模块时发生了'utf-8'解码错误。

我需要使用一个包含大量中文字符的word2vec模块。该模块是由我的同事们使用Java进行训练并保存为二进制文件。

我安装了gensim并尝试加载该模块,但是出现了以下错误:

In [1]: import gensim  
In [2]: model = gensim.models.Word2Vec.load_word2vec_format('/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin', binary=True)
UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: unexpected end of data

我尝试在python 2.7和3.5中加载该模块,但是都以同样的方式失败了。那么我该如何在gensim中加载该模块呢?谢谢。

0