当前位置：首页 >新闻动态 >快手号出售

测评的执行方式分为批量跑测和端到端测试

2021-04-29

测评的执行方式分为批量跑测和端到端测试。

批量跑测，是指通过调用算法模型的相关接口，将准备好的测试样本批量送入模型，并批量得到模型返回结果的测试方式。

端到端测试，是指模拟用户真实使用场景，从用户设备端（手机、PC等）传入测试样本，直到算法服务端返回结果到用户设备端的测试方式。

针对精度和性能的测评，我们建议采用批量跑测的执行方式，数据准、效率高；针对操作体验的测评，一般只能通过端到端的执行方式，才能准确还原真实操作场景。

样本选取和用例设计是整个测评的核心，会直接影响测评结果是否能真实、客观、全面的反映算法能力。

不同算法在样本选取和用例设计上千差万别，但有几个小方法可以提供给大家参考：

1）全面覆盖

根据业务需求，样本和用例的设计要完整覆盖需要测评和需要被客观体现的算法能力。如何做到完整全面的覆盖？可以采用最小颗粒拆解方法。

2）最小颗粒

根据业务需求，将算法能力拆解到最小的颗粒度，逐一测评最小颗粒的原子能力。如何拆解原子能力呢？这里有个小技巧，就是多问几个“为什么”，其实就是拆解算法训练原理，再根据业务场景中实际会出现的情况，得出样本和用例。

以笔者上面提到的“证件是否为原件的检测算法”为例——

问：“为什么可以检测出图片中的证件是否为原件？”

答：“因为这个算法可以区分出复印件、翻拍件。”

问：“为什么可以区分出复印件？”

答：“通过图片颜色的判断。”

问：“为什么通过颜色就可以判定是复印件？”

答：“复印件有黑白复印件和彩色复印件，黑白复印件可以直接通过色值判定，而彩色复印件的成像颜色对比度一般比原件的对比度要低，且复印件的底色背景绝大部分都是白色。”

从上述的问答中，我们就可以拆解出该算法的样本和用例如下——

注：以上问答经过简化处理，方便理解。

3）单一变量

对算法每个原子能力点的测评，可采用控制变量法，同时为了确保能有效反映每个原子能力的客观结果，每组样本和用例都要保证只有一个变量发生改变；因为在同一个用例中存在多个变量发生改变，我们很难区分算法得出的测试集结果是由哪些变量引起的，不利于后期结果分析。

当然，如果有特殊需要，在能够明确区分变量影响的情况下，也可以采用多变量变化测试。

4）侧面转换

当面临某些算法能力我们无法直接测评时，可采用转换法，将无法直接测评的能力转换为与该能力有直接关系且可测评的其他能力，从而侧面验证该算法能力的效果。

面对一个新算法，最快了解这个算法评价指标的方法，就是“问”。自研算法的，可以问算法研究员；外采算法的，可以问多家算法供应商，综合选择评价指标。

1）算法精度指标

精度指标因算法而异，一般可分为两种类型：绝对指标和相对指标。

绝对指标通常就是准确率，是测试集算法处理结果与测试集真实结果差异的百分比计算，目前笔者接触过的绝对指标有FAR、FRR、召回率、字符准确率。