检测技术
小程序安全 menu

检测技术

更新于: 2024-03-28 16:03

WeTest通过对技术架构的分析拆解,从爬虫过程到匹配上报,逐步分析拆解,制定了一套符合各类应用场景下的小程序资产排查检测方案,方案包含了搜索爬取和仿冒检测。

  • 爬取数据:从用户输入的查询语句中提取出关键词。这通常涉及到自然语言处理的技术,如分词、词性标注等。

搜索爬取技术架构如下图所示:
image.png

  • 图像匹配:这是检测小程序仿冒的常用方法之一。通过对小程序的图标、界面元素等进行图像识别,并与正版小程序的相应元素进行对比,可以识别出是否存在仿冒行为。这种技术需要处理大量的图像数据,并依赖于先进的算法进行模式识别和分类。
  • 文本匹配:将用户输入的关键词与倒排索引中的关键词进行匹配,找出包含这些关键词的文档。然后,根据一定的排序算法(如基于关键词的权重、文档的相关性等),对检索结果进行排序。
  • 关键词匹配:通过对仿冒应用的功能进行测试,可以比较其与原应用的功能差异,从而识别出潜在的仿冒行为。这种技术需要深入了解原应用的功能和特性,以确保测试的准确性和有效性。
  • 判断数据仿冒级别:按照特定文本匹配、关键词匹配、图像匹配,判断数据仿冒级别标记
  • 标记入库

数据标记示意图如下图所示:
image.png

购买
客服
反馈