最近使用的系统具有基于TFIDF算法的一组事物。我计划设想这个过程并将其组织成一个系统工具。
首先,您需要使用TFIDF来了解它所需要的东西。
1是要处理的文章,在得分词后,2是核心计算。
在尝试了10万篇简单的文章后,我发现这篇文章并不像我想象的那么简单。
只需计算TFIDF块并填充8 G内存。
目前想到的解决方案可能是:
1.使用盘古分词,清除标点符号作为停用词,并在剪切单词后生成结果。
如有必要,您可以在词汇表中添加一些自定义词汇表进行备份,并打开二进制分词功能以确保结果的准确性。
文章越多,您就越需要使用多线程进行处理。这件作品必须要研究。
2.使用TFIDF进行单词频率计算,通过分词后的文章,计算文章中所有单词,单词的TF和IDF。数据越多,处理起来就越困难。