Contents

这是我从Quora上看到的一篇非常简短但详细的数据科学家的‘技能点’
来自eBay的一个数据科学家的回答
翻译来自Quora回答

这是面试谷歌、英特尔、脸书等大的世界五百强公司的数据科学家相关岗位常见的技术要求,在我看来主要有七点

  • 基本的编程基础

你应该了解一门统计学相关的编程语言,比如说RPython(同时要了解NumpyPandas库),还要一门数据库查询语言比如SQL

  • 统计学

你应该要能解释零假设、P值、最大似然估计和置信空间这些短语,统计学在非常巨大的数据库里压缩数据和从挑选最重要的特征非常重要,在你得出结论和设计实验过程中也帮助巨大

  • 机器学习

你必须能够搞懂K-近邻、随机森林和集合方法等机器学习算法,这些算法基本上都在RPython中得到实现,这些算法能告诉你雇主你能够将计算机科学运用在实际的管理中。

  • 数据重组

你应该要能够“清理”数据。比如数据库中”California” (加利福利亚)和“CA”是一样的,数据库里面可能出现用负值代表人口。这个总的来说就是识别坏(或者不正确)的数据然后校正(或删除)他们。

  • 数据可视化

数据科学家不能就只是自己搞懂就行,他们需要把他们发现告诉你的产品经理,这样就能确保数据能很好的应用到程序里面去。所以,熟悉数据可视化工具比如说ggplot非常重要(这样你就能展示你的数据而不是仅仅谈谈而已)

  • 软件工程

你应该了解算法和数据结构,因为这些东西在你写高效率的机器学习算法时非常重要,知道如何使用分支和使用高效的数据结构:队列、数组、列表、堆栈、树等等。

  • 产品管理

这个绝对是有争议的,但是那些了解产品的人将会知道什么指标是最重要的。这里有很多数据可以用来做A/B测试,但是产品导向的数据科学家将会把最好的指标用来做测试。你要知道这些的意思:可用性测试、线框、保留和转换率、流量分析、客户反馈、内部日志、A/B测试。

Contents