2009-05-04

当开始卖面对数据洪流时

“信息爆炸”提出已有40多年,但只要提及它,总会引人遐想的。下面就是一处面对数据洪流科学方法是否可继续的讨论:
我们知道, 科学研究的常规模式是从实验数据或观测数据中提出假设、 模型或理论, 然后用新的实验或观测来检验它们。 安德森认为这种模式在信息时代的数据洪流中将会过时, 今后人们只需象谷歌那样直接从大量数据的统计关联中得出结论就行了。 用他的话说: “关联就已足够, 我们可以停止寻找模型”。 按照安德森的设想, 我们只需将大量数据扔进巨型计算机, 让它运用统计算法去发现那些科学所无法发现的关联。 那些关联将取代因果, 科学将摆脱模型和理论而继续前进。

安德森显然思考了我们面对海量数据困难或者无奈,但他是否也思考了我们该如何面对无穷关联的困境,那关联可靠性把握,众多关联的含义如何传递下去。为什么要寻找模型,因为模型是这些关联最好的“浓缩”。换句话,如何将发现的关联上升到可靠的知识,这才是研究者的任务。

没有评论: