数据科学

来自集智百科
跳转到: 导航搜索

不要与信息科学混淆

该词条由Xhtinhunter翻译编辑,由Iceblaze9527审校,【总审校者】总审校,翻译自Wikipedia词条Data science

数据科学类似于数据挖掘,是一个使用科学的方法、过程、算法和系统,从有结构或无结构的各种形式的数据中提炼知识和见解的跨学科领域。 [1] [2] 数据科学的概念结合了统计学、数据分析、机器学习等相关方法以便于借助数据理解和分析实际现象。 [3] 它使用了来自数学统计学信息科学计算机科学等许多学科领域的技巧和理论。

图灵奖得主吉姆·格雷(Jim Gray)将数据科学设想为一种科学的“第四范式”(经验主义理论研究、计算机辅助,现在是数据驱动),并且断言所有关于科学的事物由于信息技术和数据洪流的影响在不断地发生改变。 [4] [5] 在2012年《哈佛商业评论》称其为“21世纪最富有魅力的工作”后 [6] ,“数据科学”成了一个流行术语。它现在经常与早期概念互换使用,例如商业分析 [7]商业智能预测模型统计学。“数据科学富有魅力”的观点甚至被汉斯·罗斯林(Hans Rosling)博士在2011年BBC纪录片中转述为“统计学是当今世界最具吸引力的学科。”内特·西尔弗(Nate Silver) [8] 则将数据科学描述为一种对于统计学家更具吸引力的词语。在许多场合,为了博人眼球,一些早期的解决方案现在被简单地打上了“数据科学”的旗号,而这可能冲淡这个术语的效用。 [9] 虽然现在许多大学的项目都提供数据科学学位,然而它们对数据科学的定义或者合适的课程内容都没有达成一致。 [7] 数据科学学位分量大跌,究其原因是许多数据科学和大数据项目没能给出有用的结果,而这通常是糟糕的管理和资源利用造成的。 [10] [11] [12] [13]

历史

“数据科学”这一术语在过去的三十年里已经出现在各种语境中,但直到最近才成为一个确定的术语。在早期,1960年它被彼得·诺尔(Peter Naur)用作计算机科学的代名词。诺尔后来引入了“数据学”(datalogy)这一术语。 [14] 在1974年,诺尔出版了《计算机方法简明调查》,在这本书对同时代被广泛应用的数据处理方法的调查中,他自如地使用了“数据科学”这一术语。

在1996年,国际分级社团联盟 (IFCS)的成员在日本神户举行了两年一次的会议,在此,术语“数据科学”在由林知己夫(Chikio Hayashi) [3] 举办的圆桌讨论上得到介绍之后首次被纳入会议标题(“数据科学、分级、相关方法”)。 [15]

在1997年11月,吴建福(C.F. Jeff Wu)为他被密歇根大学给予的H.C Carver教授职位任命发表了题为“统计学=数据科学?” [16] 的就职演讲 [17] ,在演讲中他将统计学工作描述为数据收集、建模和分析、决策的三部曲。在结论中他首创了现代的、非计算机科学的“数据科学”术语用法,并提倡统计学应被更名为数据科学,统计学家应被称作数据科学家。 [16] 之后,他又在1998年纪念印度科学家和统计学家、印度统计学院创立者马哈拉诺比斯(P.C. Mahalanobis)的讲座上将同名演讲作为其系列演讲 [18] 的第一篇发表。

在2001年,威廉·克利夫兰(William S.Cleveland)在他的文章《数据科学:一个用来扩大统计学领域技术范畴的行动计划》将数据科学作为一门独立学科引入,扩大了统计学的领域并使之包含“数据计算的前沿”,这篇文章发表在2001年4月版的《国际统计评论》(International Statistical Review / Revue Internationale de Statistique)的第69卷,第1篇。 [19] 在他的报告中,克利夫兰建立了他认为数据科学所围绕的6个技术领域:多学科调查,数据模型和方法,数据计算,教学法、工具评估和理论。

在2002年4月,国际科学委员会(ICSU):数据科学与技术分会(CODATA) [20] 创办了数据科学期刊(Data Science Journal[21] ,这是一份聚焦于诸如数据系统描述、网络出版物、应用和法律问题的出版物 [22] 。之后不久,哥伦比亚大学在2003年1月开始出版数据科学期刊(The Journal of Data Science[23] ,为所有数据工作者提供了发表意见和交流想法的平台。这份期刊衷心致力于统计学方法应用和定量研究。在2005年,国家科学委员会出版了“长期数字数据收集:赋能21世纪的研究和教育”,定义数据科学家为“信息和计算机科学家、数据库和软件程序员、学科专家、管理者和注释专家、图书管理员、档案保管员,以及其它对数字化数据收集的成功管理起到关键性作用的人。”他们的首要活动是“进行创造性探究与分析。” [24]

在2007年左右, [25] 图灵奖得主吉姆·格雷(Jim Gray)预见到使用大数据的分析计算作为主要科学方法的“数据驱动的科学”将成为科学的第四范式 [4] [5] ,我们将迎来一个科学文献、科学数据全部在线且彼此利用的世界。 [26]

在2012年《哈佛商业评论》的报道“数据科学家:21世纪最富有魅力的工作”中 [6]帕蒂尔(DJ Patil)声称其已于2008年和杰弗·哈梅巴赫(Jeff Hammerbacher)共同创造了这一术语,用以标注他们在领英和脸书上的职业信息。他断言数据科学家将是一种全新的职业类型,并且数据科学家的短缺正成为某些领域的严重掣肘,但同时也将其描述为一个更加商业化导向的角色。

2013年,IEEE数据科学和高等分析专门工作组 [27] 成立,同年第一届“欧洲数据分析大会(ECDA)”在卢森堡召开,会上成立了欧洲数据科学协会(EuADS)。第一届国际会议——IEEE国际数据科学和高等分析会议于2014年召开。 [28] 同年,编程训练营始祖General Assembly启动了学生付费培训,数据孵化器公司成立了一个富有竞争力的自由数据科学团体。 [29] 也是在2014年,美国统计协会的统计学习和数据挖掘部门将其期刊更名为“统计分析与数据挖掘:ASA数据科学期刊”,并在2016年将其部门更名为“统计学习与数据科学”。 [30] 2015年,Springer创办国际数据科学与分析杂志 [31] ,用来出版有关数据科学和大数据分析方面的原创性工作。2015年9月,GfKI在英国克彻斯特的埃塞克斯大学举办的第三届ECDA大会上增设“数据科学社团”。

与统计学的关系

飞速增长的职位空缺表明“数据科学”的概念在商业界和学术界可谓一夜蹿红。 [32] 然而许多持批判态度的学者和新闻记者并没有看出数据科学与统计学的区别。吉尔·普莱斯(Gil Press)在福布斯杂志上撰文主张数据科学只是一个缺乏清晰定义的流行术语,并且在诸如研究生的课程内容中成了“商业分析”的简单替代。 [7]美国统计协会的联合统计学会议上发表主旨演说后的问答部分,著名应用统计学家内特·西尔弗(Nate Silver)说道:“我认为数据科学家对于统计学家是一个富有魅力的词语…统计学是科学的一条分支。数据科学家在某种意义上略显多余,而且人们不应该痛斥统计学家这个词。” [8] 同样,在商业领域,各方研究者和分析师表示,仅仅有数据科学家远远不足以赋予公司真正的竞争优势, [33] 而且,仅仅把数据科学家看作四项更伟大的工作种类之一,各公司需要为大数据进行有效的融资,亦即:数据分析师、数据科学家、大数据开发者和大数据工程师[34]

另一方面,也有无数对批评的回应。在2014年一篇《华尔街日报》的文章中,欧文·沃拉达斯凯-伯杰(Irving Wladawsky-Berger)比较了数据科学的狂热与计算机科学的黎明。他坚称,就像其他交叉学科领域一样,数据科学利用来自学术界工业界方法论和实践,但之后会将它们变成一个新学科。他特别强调了现在一个广受认可的学术科目计算机科学曾面临的尖锐批评。 [35] 类似地,就像许多其他数据科学学界支持者一样, [35] 纽约大学斯特恩商学院的瓦桑德·达尔(Vasant Dhar)在2013年12月更加明确地表示数据科学与现存的仅仅聚焦于解释数据集的横跨所有学科的数据分析实践不同。数据科学为预测模型寻求了可行和一致的模式[1] 这项实际的工程目标采用了超越了传统数据分析的数据科学。如今这些学科和应用领域的数据缺乏可靠理论以供形成有力的预测模型,就像健康科学社会科学那样。 [1]

斯坦福大学教授大卫·多诺霍(David Donoho)于2015年9月在一次与达尔类似的尝试中,通过抵制批评界对数据科学的三种过分简单化和误导性的定义,提出了更长远的主张。 [36] 第一,对多诺霍而言,数据科学不等同于大数据,因为数据集的规模不是区分数据科学和统计学的标准。 [36] 第二,数据科学不是由将大数据集分类整理的计算技能定义的,因为这些技能已经被广泛地用作所有学科的分析。 [36] 第三,数据科学现在是一个学术项目尚不足以给数据科学家日后的工作提供充足准备,而已然得到大量应用的领域,因为许多研究生项目带有误导性地宣传他们的分析和统计学训练是一个数据科学项目的实质。 [36] [37] 作为一名统计学家多诺霍继承了学界诸多前辈的衣钵,拥护着数据科学研究范围的扩充, [36] 就像约翰·钱伯斯(John Chambers)极力主张统计学家采用一种包容的从数据中学习的概念、 [38] 威廉·克利夫兰(William Cleveland)强调把从数据中提取具有应用价值的预测工具摆在比发掘解释性理论更高的优先级上一样。 [19] 这些统计学家们共同展望着一个日益包容、从传统的统计学中生长出来并青出于蓝而胜于蓝的应用领域。

为了数据科学的未来,多诺霍为开放性科学规划了一个不断成长的环境,使所有研究者都可以访问用于学术出版物的数据集。 [36] 美国国家卫生研究院已经宣布了提高研究数据再现性和透明度的计划。 [39] 其它的大型期刊亦紧随其后。 [40] [41] 这样,数据科学的未来不仅在规模和方法论上超越了统计学理论的界线,它还会彻底革新现在的学术和研究范式[36] 诚如多诺霍所言蔽之:“数据科学的范围和影响在今后数十年会继续扩充,科研数据和有关科学本身的数据将无处不在、俯拾即是。” [36]

参考文献

  1. 1.0 1.1 1.2 Dhar, V. (2013). "Data science and prediction". Communications of the ACM 56 (12): 64. http://cacm.acm.org/magazines/2013/12/169933-data-science-and-prediction/fulltext.
  2. Jeff Leek 2013-12-12. The key word in "Data Science" is not Data, it is Science. Simply Statistics.
  3. 3.0 3.1 Hayashi, Chikio (1998-01-01). "What is Data Science? Fundamental Concepts and a Heuristic Example". In Hayashi, Chikio (in en). Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization. Springer Japan. pp. 40–51. https://link.springer.com/chapter/10.1007/978-4-431-65950-1_3.
  4. 4.0 4.1 Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. https://books.google.com/books?id=oGs_AQAAIAAJ.
  5. 5.0 5.1 Bell, G.; Hey, T.; Szalay, A. (2009). "COMPUTER SCIENCE: Beyond the Data Deluge". Science 323 (5919): 1297–1298.
  6. 6.0 6.1 Davenport, Thomas H.; Patil, DJ (Oct 2012). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review. https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/.
  7. 7.0 7.1 7.2 Data Science: What's The Half-Life Of A Buzzword?. Forbes.2013-08-19.
  8. 8.0 8.1 "Nate Silver: What I need from statisticians". 23 Aug 2013
  9. Warden, Pete(2011-05-09). "Why the term "data science" is flawed but useful" O'Reilly Radar. Retrieved 2018-05-20.
  10. "Are You Setting Your Data Scientists Up to Fail?". Harvard Business Review.2018-01-25. Retrieved 2018-05-26.
  11. "70% of Big Data projects in UK fail to realise full potential" www.consultancy.uk. Retrieved 2018-05-26.
  12. "The Data Economy: Why do so many analytics projects fail? - Analytics Magazine". Analytics Magazine. 2014-07-07. Retrieved 2018-05-26.
  13. "Data Science: 4 Reasons Why Most Are Failing to Deliver". www.kdnuggets.com. Retrieved 2018-05-26.
  14. Naur, Peter (1 July 1966). "The science of datalogy". Communications of the ACM 9 (7): 485.
  15. Press, Gil. "A Very Short History Of Data Science".
  16. 16.0 16.1 Wu, C. F. J. (1997). "Statistics = Data Science?". Retrieved 9 October 2014.
  17. "Identity of statistics in science examined" .The University Records, 9 November 1997, The University of Michigan. Retrieved 12 August 2013.
  18. "P.C. Mahalanobis Memorial Lectures, 7th series". P.C. Mahalanobis Memorial Lectures, Indian Statistical Institute. Archived from the original on 26 Feb 2017. Retrieved 18 Jul 2017.
  19. 19.0 19.1 Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. International Statistical Review / Revue Internationale de Statistique, 21–26.
  20. International Council for Science : Committee on Data for Science and Technology. (2012, April). CODATA, The Committee on Data for Science and Technology. Retrieved from International Council for Science : Committee on Data for Science and Technology: http://www.codata.org/
  21. Data Science Journal. (2012, April). Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols
  22. Data Science Journal. (2002, April). Contents of Volume 1, Issue 1, April 2002. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/1/0/_contents
  23. The Journal of Data Science. (2003, January). Contents of Volume 1, Issue 1, January 2003. Retrieved from http://www.jds-online.com/v1-1
  24. National Science Board. Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century . National Science Foundation . Retrieved 30 June 2013.
  25. Citation needed
  26. Markoff,John(2009-12-14). "Essays Inspired by Microsoft’s Jim Gray, Who Saw Science Paradigm Shift". The New York Times. Retrieved 2018-04-26.
  27. "IEEE Task Force on Data Science and Advanced Analytics"
  28. "2014 IEEE International Conference on Data Science and Advanced Analytics"
  29. "NY gets new bootcamp for data scientists: It’s free, but harder to get into than Harvard ". Venture Beat Retrieved 2016-02-22.
  30. Talley,Jill(2016-06-01) "ASA Expands Scope, Outreach to Foster Growth, Collaboration in Data Science" . AMSTATNEWS. American Statistical Association. Retrieved 2017-02-04
  31. "Journal on Data Science and Analytics"
  32. Darrow,Barb(May 21, 2015). "Data science is still white hot, but nothing lasts forever" .Fortune. Retrieved November 20, 2017.
  33. Miller, Steven (2014-04-10). "Collaborative Approaches Needed to Close the Big Data Skills Gap" (in en). Journal of Organization Design 3 (1): 26–30. http://www.jorgdesign.net/article/view/9823.
  34. De Mauro, Andrea; Greco, Marco; Grimaldi, Michele; Ritala, Paavo. "Human resources for Big Data professions: A systematic classification of job roles and required skill sets". Information Processing & Management. http://linkinghub.elsevier.com/retrieve/pii/S0306457317300018.
  35. 35.0 35.1 Wladawsky-Berger,Irving (May 2, 2014). "Why Do We Need Data Science When We’ve Had Statistics for Centuries?". The Wall Street Journal. Retrieved November 20, 2017.
  36. 36.0 36.1 36.2 36.3 36.4 36.5 36.6 36.7 Donoho, David (September 2015). "50 Years of Data Science". Based on a talk at Tukey Centennial workshop, Princeton NJ Sept 18 2015. http://courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf.
  37. Barlow, Mike (2013). The Culture of Big Data. O'Reilly Media, Inc..
  38. Chambers, John M. (1993-12-01). "Greater or lesser statistics: a choice for future research" (in en). Statistics and Computing 3 (4): 182–184. https://link.springer.com/article/10.1007/BF00141776.
  39. Collins, Francis S.; Tabak, Lawrence A. (2014-01-30). "NIH plans to enhance reproducibility". Nature 505 (7485): 612–613.
  40. McNutt, Marcia (2014-01-17). "Reproducibility" (in en). Science 343 (6168): 229–229. http://science.sciencemag.org/content/343/6168/229.
  41. Peng, Roger D. (2009-07-01). "Reproducible research and Biostatistics" (in en). Biostatistics 10 (3): 405–408. https://academic.oup.com/biostatistics/article/10/3/405/293660.

本词条内容翻译自 en.wikipedia.org,遵守 CC3.0协议。

个人工具
名字空间
操作
导航
工具箱