基于机器学习的文档聚类技术研究(合作企业:深信服)

2020-06-12

项目成员:陈闽、赵力达

指导老师:危学涛


文本聚类是指对文本进行通用向量化表示,然后通过根据文本相似度,通过无监督的聚类方法自动对文本集合进行聚合。所以相较于需要特定标签训练的文本分类,文本聚类具有更通用的应用场景。本项目在总结现有的研究成果的基础上,深入研究了现有的文本表示模型,包括词频向量、TF-IDF、Word2Vec,Doc2Vec和Transformer。最终使用2019年末新推出的Sentences-Transformer设计并开发一个基于深度学习的多语言文本聚类系统。相较于词向量模型,基于多语言BERT的Sentences-Transformer内存占用较小。相较于传统的机器学习方法,本项目采用的方法能考虑到语义信息,且在扩展到长文本的同时避免文本向量维度爆炸。

本项目设计了一个平均Top1准确度高于85%的文本聚类系统。该系统测试了多种文本摘要的方法提取关键信息,拓宽了原本只能接受510个字符的Sentences-Transformer的应用范围,让其也能处理更长的文本。结果表明,对于全文短于510个字符的文本,该系统的Top1准确度达到约92%的Top1准确度,有效的摘要方法包括直接截断、TF-IDF权重、词频权重。摘要应以句子为基本单位。相对于动则数GB大小的Transformer模型或Word Embedded模型,在工程实践上实现了代码和模型整体小于600M,运行时的峰值内存占用小于1GB的性能要求。

为了方便少量文本的增量聚类,我们还额外开发了基于深度神经网络的分类模型。该分类器平均准确度可达88%,解决了添加少量文档却需要重新对全文档集聚类的窘境。

                                      image.pngimage.png