游戏口碑的风向标——短文本聚类和维度口碑分析技术分享

每一款游戏在策划、研发、运营阶段,都需要去倾听游戏玩家的各种声音。

 每一款游戏在策划、研发、运营阶段,都需要去倾听游戏玩家的各种声音。比如游戏运营人员经常需要观察游戏事件(如活动、新英雄、新版本)在玩家中的反响和口碑。企鹅风讯针对游戏领域,玩家在各个数据渠道、社交媒体上的评论进行分析,对玩家关于游戏的各个维度评论进行聚类,便于游戏运营人员快速准确的发现问题、评价活动的玩家口碑和事件分析等。

 

在我们的口碑分析过程中,需要依赖大量的情感词库,但是展示给用户的时候,我们要把同类情感作为一个主题展示。传统的bag of words中,每个词只是向量空间的一个点,彼此间不具有相关性。为此我们采用了word embedding方式将词转化

 

 游戏评论维度的挖掘:用户在论坛、社交媒体上的语料属于大规模短文本语料,具有稀疏性高、随意性强的特点。如果直接利用传统方法进行语料聚类来挖掘维度,效果很差。我们基于paragraph2vec算法,将待聚类语料和历史大量无标注语料统一进行训练,得到每条语料的句向量,然后选出其中待分类语料的句向量进行聚类。在待分类样本数较少时,该方法可以显著扩展语料的语义特征,使得聚类结果更加理想。

    在此之前,尝试了很多方案对手头语料进行聚类,包括Kmeans,AP,DBScan等,但是由于短文本的特点,效果一直不理想(很多语义相似的词由于没有字面上的交集,无法聚集到一起),也尝试过用LDA抽取主题特征,但是能够表示的隐语义空间也很有限,并不适用于随意性特别强的不规范短文本。后来听过一次关于DeepLearning在NLP领域的应用,期间提到了一个影响业界的Word2Vec算法,才知道了有word embedding这种特征可以解决这一问题,并且计算效率完全可以接受。尝试以后发现效果非常好,进一步研究了扩展到句子级别的paragraph2vec,并且通过思考解决了paragraph2vec只能对目标集提取特征的限制(用参考级+目标集一起提取特征,但仅使用目标集的特征作为后续算法输入)

    整体数据流程如下,其中最终的口碑分析是依赖维度+情感词库结合句法分析和规则库进行的,而维度库和情感词库的产生依赖于聚类+人工。这里聚类采用的即是上文提到的word2vec和paragraph2vec特征。

 

 游戏风向标目前主要是游戏各个维度下用户正负口碑的罗列,这有利于游戏运营人员发现问题,了解活动、事件的各个方面的口碑。后续我们会进一步增加各个维度下口碑随着事件的变化趋势、本游戏与竞品在各个口碑下的对比、整个游戏行业里各个游戏的口碑整体评价排行等功能,帮助游戏团队各个环节的人员更好进行决策和分析。

最新文章
1WeTest携PC&主机游戏质量保障服务和性能测试平台PerfDog亮相Gamescom 2024 以全场景游戏质量保障服务及性能测试解决方案,助力全球游戏行业的创新与发展
2一张图带你了解小程序隐私合规检测 快速了解小程序隐私合规检测如何防范黑灰产风险,守护用户数据安全
3防范小程序隐私合规风险,筑牢用户信任防线 了解隐私合规检测如何帮助小程序规避数据安全风险
4WeTest 海外测试需求有奖问卷活动中奖名单公布 近日,WeTest 海外测试需求有奖问卷活动圆满结束,经过紧张的统计与筛选,以下朋友们中奖,成功获得了我们的门票礼品。
5海外本地化测试的全生命周期服务 第三期 支付测试 海外支付风控升级,非本地测试封号现象频发,真金测试推进困难?来看WeTest的本地化支付测试方案
购买
客服
反馈