大而无当的“输”据/麦传球

现在你意识到,在我们给予之后,我们才会获得。

尽管我们大多数人在最近几年才听说过大数据这个术语,其实这个术语已被使用超过20多年了。本文不是讲关于如何收集、分析或呈现大数据,而是讲关于大数据质量对投资决策的影响。



按照字面解释,大数据意味着大量数据。

一般而言,你可以使用的数据越多,你的分析结果就越准确和详细。

那,当我们拥有大数据时,数据质量是否重要?

由于我们不是数据科学方面的专家,你可能很难回答这个问题。然而,当我问一个类似的问题,而以钱为例时,你就可能可以立即回答这个问题。

问题是,“如果我们拥有大量的货币,那么货币的质量是否重要?”当然,大部分人对金钱是非常熟悉的,因此大家都很容易的回答“当然”,即金钱的质量或者价值是很重要的。



是的,在许多方面,数据质量对任何数据分析都是很重要的。

当我们分析财务报告时,我们都知道“垃圾进,垃圾出”的概念。意味着如果将错误的数据输入计算机系统,计算机自然也一定会输出错误或无意义的结果。

换句话说,输入的数据质量肯定会影响分析结果的质量和最终的投资决策。

质量左右评估

数据质量是指给定数据集数,能为你提供分析,以便你能够对计划做出好决策的能力。如果你有高质量的数据,这意味着你的数据可以帮助你实现你想达到的分析目标。

数据集是否包含质量数据最终取决于数据有没有错误、不一致、冗余、格式不良以及其他的问题。

如果数据质量不好,那在分析数据后得出的任何结论都将令人怀疑,只有有限的价值,甚至没用。

当你拥有的数据唯一优势是数量很大时,你的大数据可能会成为大输家数据,因为它可能会导致你输钱而不是赢钱。

如何评断数据质量?

你是否曾经历过用于分析的数据越多或分析得越多,你就越难以做出投资决定?

分析瘫痪(瘫痪分析)描述了个人或群体,当过度分析或过度思考某种情况可能导致前向运动或决策变得“瘫痪”,而无法决定和总结解决方案或行动方案。

那,什么是良好的数据质量?

在数据质量方面,有6个重要的数据特征:

●一致性

在相关数据集中,不应存在不一致性,例如重复,矛盾,差距等等。而且,格式不同的数据或者在某些情况下完整但在其他情况下不完整的数据也不好。

●准确性

数据应该精确和连续,并且反映事物的真实情况。有缺陷的数据,任何数据分析方法都不可以弥补其不准确性。

●完整性

用于分析的数据集应该是完整的或包括需要分析的任何数据。数据集中的冗余或缺失信息可能导致错误结果。例如,当你想要分析全年结果时,你应该有12个月度数据而不是11个月度数据。

●相关性

如果要分析某个变量对公司核心业务绩效的影响,你必须确保所分析的数据与受影响的主题或对象具有高度的相关性。对于那些不大熟悉特定行业的人来说,他们总是认为某商品的价格变动与该特定行业中公司的行业表现具有高度直接关联或相关性。

例如,当原油价格上涨时,他们会认为该行业的所有上市公司都将受益于价格上涨。这种误解导致他们赔钱,因为只有那些拥有油田的公司才会直接受益,而其他公司可能只得到部分的利益。

因此,我们应意识到,任何行业的上游和下游业务都将受益于不同程度的变量变化。

●最新(及时更新的)

过时的数据可能无法为决策提供准确或有用的结果。例如,如果你可以获得每月报告以预测公司的销售收入,那么比使用3个月差距的季度报告要好得多了。在许多的情况下,实时数据分析对于获得可操作的结果至关重要。

●可审计性

你应该能够验证所用数据的来源和准确性,以便你能够执行数据质量审核。

无论你的分析工具有多棒,获得结果的速度有多快,如果你缺少良好的数据质量和数量,就无法弥补上述的缺点,因此可能无法获得良好和有用的分析结果。

丢掉不必要的数据

因此,下次比较两个分析报告的结果时,请确保将每个报告的数据质量进行比较,以便了解谁应该有更准确的预测。

这是做正确事情(使用大量数据进行大量分析)与正确的做事情相比(使用高质量数据进行准确分析)的另一个典型例子。

我们生活在一个相对便宜的数据存储世界,而我们也一直认为收集的数据量越大就越好。

由于这两个原因,我们尽可能多收集数据并且存储它。

但实际上,如果你正在收集和存储不需要的数据,那么你可能会削弱数据的质量。不必要的数据会造成干扰,并将浪费额外的时间来保存,存储和分析甚至很难找到你真正需要的分析结果和信息。

我相信我们中的一些人总是成为这个问题的牺牲品。

现在你意识到,在我们舍之后,才会得到更多。