游戏口碑的风向标——短文本聚类和维度口碑分析技术分享

每一款游戏在策划、研发、运营阶段,都需要去倾听游戏玩家的各种声音。

 每一款游戏在策划、研发、运营阶段,都需要去倾听游戏玩家的各种声音。比如游戏运营人员经常需要观察游戏事件(如活动、新英雄、新版本)在玩家中的反响和口碑。企鹅风讯针对游戏领域,玩家在各个数据渠道、社交媒体上的评论进行分析,对玩家关于游戏的各个维度评论进行聚类,便于游戏运营人员快速准确的发现问题、评价活动的玩家口碑和事件分析等。

 

在我们的口碑分析过程中,需要依赖大量的情感词库,但是展示给用户的时候,我们要把同类情感作为一个主题展示。传统的bag of words中,每个词只是向量空间的一个点,彼此间不具有相关性。为此我们采用了word embedding方式将词转化

 

 游戏评论维度的挖掘:用户在论坛、社交媒体上的语料属于大规模短文本语料,具有稀疏性高、随意性强的特点。如果直接利用传统方法进行语料聚类来挖掘维度,效果很差。我们基于paragraph2vec算法,将待聚类语料和历史大量无标注语料统一进行训练,得到每条语料的句向量,然后选出其中待分类语料的句向量进行聚类。在待分类样本数较少时,该方法可以显著扩展语料的语义特征,使得聚类结果更加理想。

    在此之前,尝试了很多方案对手头语料进行聚类,包括Kmeans,AP,DBScan等,但是由于短文本的特点,效果一直不理想(很多语义相似的词由于没有字面上的交集,无法聚集到一起),也尝试过用LDA抽取主题特征,但是能够表示的隐语义空间也很有限,并不适用于随意性特别强的不规范短文本。后来听过一次关于DeepLearning在NLP领域的应用,期间提到了一个影响业界的Word2Vec算法,才知道了有word embedding这种特征可以解决这一问题,并且计算效率完全可以接受。尝试以后发现效果非常好,进一步研究了扩展到句子级别的paragraph2vec,并且通过思考解决了paragraph2vec只能对目标集提取特征的限制(用参考级+目标集一起提取特征,但仅使用目标集的特征作为后续算法输入)

    整体数据流程如下,其中最终的口碑分析是依赖维度+情感词库结合句法分析和规则库进行的,而维度库和情感词库的产生依赖于聚类+人工。这里聚类采用的即是上文提到的word2vec和paragraph2vec特征。

 

 游戏风向标目前主要是游戏各个维度下用户正负口碑的罗列,这有利于游戏运营人员发现问题,了解活动、事件的各个方面的口碑。后续我们会进一步增加各个维度下口碑随着事件的变化趋势、本游戏与竞品在各个口碑下的对比、整个游戏行业里各个游戏的口碑整体评价排行等功能,帮助游戏团队各个环节的人员更好进行决策和分析。

最新文章
1客户案例研究:专家安全扫描,守护金融银行小程序安全和私密性 WeTest私有化部署的定制扫描平台让金融银行客户能无成本接入扫描系统并迅速上手使用。客户能方便快捷地根据定制手册进行自助扫描,根据生成的扫描报告,详细洞察漏洞,快速识别并准确定位问题根源。
2客户案例研究:专家渗透测试,洞察电子商务小程序重大交易漏洞 通过WeTest渗透测试服务,某知名零售公司旗下的在线购物类小程序中发现了8处安全风险,我们的安全专家为客户提供了详细的漏洞报告,提供了较为清晰完整的安全加固方案。在回归测试中,中危以上风险均被解决。
3自查小程序4大安全隐患!文末免费赠送小程序安全扫描专业版! 腾讯WeTest现面向小程序开发者开放免费申请使用小程序安全扫描专业版,助您提前发现全面的安全漏洞。扫描文中问卷二维码或点击问卷链接,即可报名参与免费领取活动。
4浅谈渗透测试服务在泛互行业带来的价值 在泛互联网行业中,渗透测试服务对于保障企业的网络安全至关重要。
5云手机卡顿/无特定设备/商店登录受限怎么办?WeTest专有云帮您解决! 公有云满足了大量小微企业、个人的测试需求;随着客户深入使用,也遇到了一系列新问题。本篇将对几个常见问题予以解答
购买
客服
反馈