数据科学家报告 2018(The 2018 Data Scientist Report)

  • 在hack news 上看到一个报告。分享一些有趣的点

    先站立场

  • 这句话我真的很喜欢,报告说在2015年,69%的数据科学家对自己感到满意,觉得自己的工作很重要,2017年这个数据达到了88%,而在2018年达到了89%

什么能吸引数据科学家,是数据,不是科学

  • 原文:What holds Data Scientist back? The data, Not the science.
  • 个人觉得标题是有点唬人,70%的工作时间都在做数据清洗工作,用25%的时间构建模型,然后剩下的5%建模跑模型验证。所以一份足够大的高质量数据对一个数据科学家是一种致命的吸引力,这个到不错。

让机器学习

  • 可以看到AI在数据科学家心理站的地位,同时90%的数据科学家或多或少涉及机器学习的项目。数据科学家担忧还是很大的。如果建模的部分可以由ai分担,估计95%的时间都会在做data clean…

工具

  • 社区种61%数据科学家主要使用python,人生哭短,我学python啊。
  • 在看看各个libs

  • Pandas 和 Numpy,数据清理和科学计算基础好无争议。Scikit-learn 做ml神奇,matplotlib可视化,TF的势头真是猛,尤其还是一个在不断更新的项目,Google实在是…

  • 但是可以看到开源(open-source)的猛列势头,流行的无一不是开源的。我曾经思考过这个问题,为什么要把自己的成果无私的分享出来呢?这几年有一点小小的感悟回答了一些:你做的东西是一方面,当你能把这个事情说明白并且教会别人的适合,同样的东西会上升一个不一样的理解。当你能根据别人的提问回答的时候,那才是你自己的东西。

数据类型

  • 文本还是牛逼,难怪NLP那么火热。同样,71%的数据科学家主要和结构化数据(structured)打交道。

数据科学的伦理问题

针对AI和世界的关系,深色代表对世界有利
  • 数据科学家的观点。
  • 其他行业的专业人士
  • 不发表任何评论,自己判断。
    AI的偏见和人自身的偏见,那个更多一些
  • 人会由偏见,例如幸存者偏差;同样AI系统也会有,比如大数据杀熟。
  • 不发表任何评论。

拷问人心的问题

  • 如果自动驾驶在统计学上证明比你自己驾驶更加安全,你会采用自动驾驶么?
  • 结果显然,不过75%这个比例很意味深长。
  • 那么你会么?