如何(以及为什么)使用Excel中的离群值功能

离群值是明显高于或低于数据中大多数值的值。在使用Excel分析数据时,离群值可能会扭曲结果。例如,数据集的平均值可能会真实地反映您的值。Excel提供了几个有用的函数来帮助管理您的离群值,所以让我们来看看。

一个快速示例

在下图中,异常值相当容易发现-分配给Eric的值为2,分配给Ryan的值为173。在这样的数据集中,手动发现和处理这些异常值非常容易。

在更大的数据集中,情况并非如此。能够识别离群值并将其从统计计算中移除是很重要的-这也是我们在本文中将研究的内容。

如何查找数据中的离群值

要查找数据集中的离群值,我们使用以下步骤:

计算第一个和第三个四分位数(我们稍后会讨论它们是什么)。 评估四分位数之间的范围(我们还将在下面稍作说明)。 返回数据范围的上下限。 使用这些界限来识别外围数据点。

下图中看到的数据集右侧的单元格范围将用于存储这些值。

我们开始吧。

第一步:计算四分位数

如果你把你的数据分成四分位数,那么每一组数据都被称为四分位数。范围内最低的25%的数字构成第一个四分位数,下一个25%的数字组成第二个四分位数,依此类推。我们首先采取这一步骤,因为最广泛使用的异常值定义是低于第一个四分位数的1.5个四分位数范围(IQR)和高于第三个四分位数的1.5个四分位数范围的数据点。要确定这些值,我们首先必须弄清楚四分位数是什么。

Excel提供了一个四分位数函数来计算四分位数。它需要两条信息:数组和夸特。

=QUARTILE(array, quart)

该数组是您正在评估的值的范围。夸特是一个表示您希望返回的四分位数的数字(例如,第一个四分位数为1,第二个四分位数为2,依此类推)。

注意:在Excel 2010中,Microsoft发布了QUARTILE.INC和QUARTILE.EXC函数,作为Quartile函数的改进。当跨多个版本的Excel工作时,Quartile的向后兼容性更强。

让我们回到示例表。

要计算第一个四分位数,我们可以在单元格F2中使用以下公式。

=QUARTILE(B2:B14,1)

输入公式时,Excel会提供QUART参数的选项列表。

要计算第三个四分位数,我们可以在单元格F3中输入类似于前一个公式的公式,但使用3而不是1。

=QUARTILE(B2:B14,3)

现在,我们已经在单元格中显示了四分位数的数据点。

第二步:评估四分位数之间的范围

四分位数范围(或IQR)是数据中值的中间50%。它被计算为第一个四分位值和第三个四分位值之间的差值。

我们将在单元格F4中使用一个简单的公式,从第三个四分位数中减去第一个四分位数:

=F3-F2

现在,我们可以看到显示了我们的四分位数范围。

第三步:返回上下限

下限和上限是我们要使用的数据范围的最小值和最大值。任何小于或大于这些限定值的值都是异常值。

我们将通过将IQR值乘以1.5,然后从Q1数据点中减去IQR值来计算单元格F5中的下限:

=F2-(1.5*F4)

注:此公式中的方括号不是必需的,因为乘法部分将在减法部分之前计算,但它们确实会使公式更易于阅读。

要计算单元格F6中的上限,我们将再次将IQR乘以1.5,但这一次将其添加到Q3数据点:

=F3+(1.5*F4)

第四步:识别离群值

现在我们已经设置了所有的底层数据,是时候识别我们的外围数据点了-那些低于下限值或高于上限值的数据点。

我们将使用OR函数来执行此逻辑测试,并通过在单元格C2中输入以下公式来显示满足这些条件的值:

=OR(B2<$F$5,B2>$F$6)

然后我们将该值复制到我们的C3-C14细胞中。真值表示异常值,如您所见,我们的数据中有两个。

在计算平均值时忽略异常值

使用QUARTLE函数可以让我们计算IQR,并使用最广泛使用的异常值定义。但是,当计算一系列值的平均值而忽略异常值时,有一个更快、更容易使用的函数。这项技术不会像以前那样识别异常值,但它将允许我们灵活地处理我们可能认为的异常值部分。

我们需要的函数名为TRIMMEAN,您可以在下面看到它的语法:

=TRIMMEAN(array, percent)

该数组是要平均的值范围。百分比是要从数据集的顶部和底部排除的数据点的百分比(您可以输入百分比或十进制值)。

在我们的示例中,我们将下面的公式输入到单元格D3中,以计算平均值并排除20%的异常值。

=TRIMMEAN(B2:B14, 20%)

在那里,您有两个不同的函数来处理异常值。无论您是要针对某些报告需求确定它们,还是要将它们从诸如平均值之类的计算中排除,Excel都有一个功能来满足您的需求。

相关文章