红足一1世手机版下载 红足一1世手机版下载 红足一1世手机版下载

京东商品评论情绪分析 | LDA主题模型

京东商品评论情感分析|LDA主题模型_数据

LDA模型是一个三层贝叶斯模型,分别表示文档层与主题层、主题层与词汇层之间的关系。LDA 模型通常以概率分布确定每个文档的主题,并以概率分布的形式表示每个主题。其拓扑如下图所示:

京东商品评论情感分析|LDA主题模型_主题模型_02

图1 LDA主题模型拓扑图

本文基于语义网络分析的方法对产品评论进行初步分析。从统计学习的角度来看,使用机器学习方法可以量化主题特征词的出现频率。通过量化话题特征词的出现频率,建立LDA话题模型,可以挖掘小米10手机的文字评论中更多隐藏和潜在的信息,挖掘小米10手机的特殊属性。

股票评论情感分析_评论情感分析_评论情感分析分类器python

1.1 LDA主题模型介绍

通过广泛的研究,Blei 等学者在 2003 年提出了生成主题模型,并将该模型命名为 Latent Dirichlet Assignment (LDA) 模型,简称主题模型。它可以有效地提取文本主题并对文本评论数据进行文本挖掘建模分析。LDA主题模型增加了概率信息,优化了传统的空间向量模型。通过LDA主题建模分析,可以挖掘出文本信息背后的潜在主题评论情感分析,进而分析出文本特征词。

LDA模型将每个文档视为一个词频向量,然后将文本标注数据信息数学向量化为易于建模的数值信息,然后构建词袋模型,LDA模型图如下图所示。

京东商品评论情感分析|LDA主题模型_主题模型_03

评论情感分析分类器python_股票评论情感分析_评论情感分析

图2 LDA模型图

1.2 LDA主题模型实现

本文建立了一个LDA主题模型,利用Gibbs抽样来估计LDA主题模型的参数。在LDA主题模型中,需要确定Dirichlet函数的先验参数和两个变量的最优参数,以及确定主题数的取值。通过经验分析,将Dirichlet函数的先验参数的经验值设置为,β经验值设置为0.1,值设置为50。

本文将手机评论数据文本分为正面和负面两种文本,综合考虑分词粒度对文本主题提取的影响。基于情感词典方法,导入情感词典对评论句子进行评分,将文本评论数据分为三种不同的情感结果,生成正面、负面和中性的情感结果,删除中性的情感结果。

评论情感分析分类器python_股票评论情感分析_评论情感分析

本文仅针对正面和负面情绪结果构建 LDA 主题模型,以挖掘产品评论背后的隐藏和潜在信息。正负情感结果两文本处理后,保存为正情感和负情感两文本,编写LDA主题模型程序,导入停用词文档,得到LDA的主题提取结果主题模型是使用 Python 的 Gensim 库生成的。

使用Python中的Gensim库将上述评论文本聚合为三个主题,并在每个主题下生成十个词,以及该主题下词的对应概率,下表挖掘出小米10手机的正负评价电话正文中的基本主题。

京东商品评论情感分析|LDA主题模型_数据_04

提取小米10手机好评的三个潜在主题,我们可以得出:

评论情感分析_股票评论情感分析_评论情感分析分类器python

主题1包含屏幕、速度、外观、操作等高频特征词,主要体现小米10手机屏幕大、外观漂亮、运行速度快的特点;

主题2包含屏幕、效果、音效等高频特征词,主要体现小米10手机屏幕大、使用效果好、音效好;

主题三包含摄影、外观、屏幕等高频特征词,主要体现小米10手机良好的拍照功能、漂亮的外观和大屏。

提取小米10手机负面评价的三个潜在主题,我们可以得出:

股票评论情感分析_评论情感分析分类器python_评论情感分析

话题1包含拍照、重启等高频特征词,主要反映小米10手机摄像头有缺陷,画面不是很好,手机频繁重启;

主题2包含信号、热度、网络等高频特征词,主要体现小米10手机信号差,手机经常发热,网络差;

话题三包括待机时间、耳机、不定时等高频特征词,主要体现小米10待机时间短,耳机偶尔出现故障。

综上所述,针对正反手机评论文本的主题提取评论情感分析,以及高频特征词出现的概率,得出小米10手机具有大屏、运行速度快、外观漂亮,拍照功能不错。同时,小米10手机也体现出信号差、发热、网络差、待机时间短等缺点。

京东商品评论情感分析|LDA主题模型_主题模型_05

PS:由于本例写的python代码太长,所以本相册的代码全部封装保存在后台,附上爬取的京东商品评论数据。