[股票600199]大数据下的统计学:问题优先而非解法优先


? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ? “共享、协作、共赢”一向是大数据文摘秉持的理念,咱们专心大数据,每天为您传递阅览价值。输入“精选”并按提示输入关键词或相应日期,就能检查往期精选文章。有任何定见或主张欢迎留言。

作者:Jeff Leek? ?翻译:岳辰? ?校正:Vanessa

? ?? ?? ?在大数据年代,计算学应当怎么发挥它的优势?许多计算学家都在讨论这个问题,包含Steve M. 和Larry W. 也在他们的博客讨论了有关的内容。而笔者的科研方向主要是研讨基因组学,也通常被列为计算学和计算学家发挥巨大作用的“大数据”的范畴之一,所以对这个问题也考虑了一段时刻。

? ? 一个自然而然的问题便是:“为什么在基因学研讨中,计算学家可以取得如此大的成功?”笔者这儿想借用Brian C.的一句话来解说:Problem first, not solution backward (问题优先而非解法优先)

? ? 在当下,“大数据”这个词的广泛应用得益于数据的获取变得越来越廉价。一个比方便是DNA序列扫描的价格。在其他范畴中也是相同,例如人体运动的数据记载,Fitbits,Google books,Twitter上的交际网络数据等等。这些数据的获取或许在十年前有着令人生畏的价格,但现在却绝非难事。

作为一名计算学家,咱们期望从这些十分不同的范畴中寻觅大数据普适的准则:

1.这些数据都无法在一个简略的笔记本电脑上进行剖析(不管从几千兆到兆兆字节)。

2.这些数据办法杂乱,结构杂乱,如有非结构化的文字信息,有缺失许多数据的json文件,含有质量指标的fastq文件等等等等。

那么为什么在基因研讨中,计算学家能取得如此大的成功呢?在笔者看来,许多原因便是干这一行的计算学家乐意花上很长的时刻,去处理那些很细节的数据问题。比方,在大数据上运转哪怕是最为简略的计算模型,也要花上数个小时的时刻,抑或处理一个得到的基因序列并对它们进行必要的修正也相同是十分耗时耗力。正因为乐意去花时刻了解并处理这些很实践的、很细节的问题,计算学家才干得到那些他人无法得到的数据,才使得计算学家在基因学科上取得了今日的效果。

这些作业并不轻松,也并不“典雅”。许多计算学家也不称之为“计算”。Steve在他的博客中说到:“坦白地说,我关于现在的计算学很少能提出有价值的新观念表明绝望。”我想,他的观念是有许多计算学家附和的。粗心是说因为在大数据上面现在没有什么好的理论提出,所以在大数据方面也就没什么值得称为上乘的“新观念”。他们的这种观念便是solution backward (解法优先):咱们需求美丽的理论,然后把它应用到具体问题。

与之不同,咱们提出的办法,便是problemforward (问题优先)。正因为当下得到数据变得越来越廉价,咱们也就可以剖析和学习许多曾经无法完结的课题。计算机科学,物理学,生物基因以及其他一些范畴在大数据上面一向坚持抢先正因为他们的研讨者在数据剖析上并不一定需求一个计算上“完美”的回答。他们更重视有科学含义的问题并乐意花时刻,精力去处理那些繁琐的“大数据”来进行剖析,然后到达意图。因而,他们能取得他人从未研讨过的数据并从中提炼有价值的部分。

[股票600199]大数据下的统计学:问题优先而非解法优先

在基因学科中就有着很好的比方。DNA晶片的创造,对这个范畴产生了革命性的影响。然后计算学家进入这个范畴。他们和其他科研人员一同为了相同的科学问题,在实践数据上投入了很多的时刻,精力来完结数据处理,或许开发可以处理数据的软件。在笔者看来,想要在大数据年代真实做出效果,首要要专心于那些有含义的科学问题,然后才是提出能处理科学问题的计算办法。这就需求咱们从头去考虑计算学。那些比方并行计算,数据再加工,数据可仿制性,软件开发等等问题,其实和纯计算理论办法相同的重要。

当然,在大数据年代,计算学有着广泛的发挥空间,用咱们共同的技术去处理这些新问题中的不确定性,可是这一切的条件都是咱们要首要乐意去为了科学方针来处理那些关于数据方面繁琐的作业。

点击阅览原文可检查英文原文


数据剖析, 数据发掘
发布于 2024-02-02 12:02:53
收藏
分享
海报
1
目录

    推荐阅读