由yl6809永利检测中心管理学院岑咏华教授团队完成的论文《基于改进词移嵌入的文本表示方法研究》在国内信息资源管理领域权威期刊《情报学报》2025年第9期发表。
文本表示是文本处理和分析的基础工作,在情感分析、文本分类等下游任务中发挥关键作用。鉴于传统模型存在语义精度不足、上下文窗口受限等局限性,基于词移距离(word mover's distance,WMD)和词移嵌入(word mover's embedding,WME)的文本表示模型近年来受到特别关注。该文提出一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)初始化和WFR(Wasserstein-Fisher-Rao)文本距离的改进词移嵌入表示方法LDA-WFR-WME。该方法通过LDA建模初始化嵌入维度,弥补一般词移嵌入模型通过随机文档表征嵌入维度时由均匀分布采样导致语义偏差的缺陷;引入WFR文本距离,解决文档间语义细节因差异过大而引起的距离失真问题。本文以多组短文本情感分析、长文本分类以及文本聚类任务为例,以Doc2Vec(document to vector)、Attention-BiLSTM(bidirectional long short-term memory)、BERT(bidirectional encoder representations from transformers)、Attention-BiGRU-CNN(attention-bidirectional gated recurrent unit-convolutional neural network)、BiGAT(bidirectional graph attention network)等为竞争模型,进行实验对比分析。结果表明,LDA-WFR-WME方法在文本篇章的嵌入式表示方面体现出更优的性能。