一、潜在语义分析LSA
LSA是一种无监督学习方法,主要用于文本的话题分析。其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。
传统的量化文本的方法是用单词向量表示文本的语义内容,在单词向量空间中通过向量的内积或标准化内积(即余弦)衡量文本之间的语义相似度。
而潜在语义分析的目的就是解决这种方法不能准确表示语义的问题,试图从大量文本数据中发现潜在的话题,以话题向量表示文本的语义,在话题向量空间中通过向量的内积或标准化内积(即余弦)衡量文本之间的语义相似度。
在单词向量空间中使用单词-文本矩阵X表示文本集合(即数据集):
权值常用TF-IDF(单词频率-逆文本频率)表示: