1、统计和概率
概率论和统计学是数据科学的基础。简而言之,统计学是使用数学对数据进行技术分析。在统计方法的帮助下,我们对进一步的分析进行估计。统计方法本身依赖于允许我们进行预测的概率理论。
2、编程
数据科学是一个令人兴奋的工作领域,因为它将先进的统计和定量技能与现实世界的编程能力相结合。根据你的背景,你可以自由选择自己喜欢的编程语言。然而,数据科学社区中最受欢迎的是
R、Python 和 SQL。
3、机器学习和人工智能
尽管AI和数据科学通常齐头并进,但大量数据科学家并不精通机器学习领域和技术。然而,数据科学涉及处理大量需要掌握机器学习技术的数据集,例如监督机器学习、决策树、逻辑回归等。这些技能将帮助你解决基于预测的不同数据科学问题。
成为数据科学家有哪些要求?
一、一个数据科学家应该具有如下五个特质与技能:
定量分析技能——例如数学和统计技能技术才能——例如软件工程、机器学习和编程能力
善于怀疑——每个数据科学家必须善于用批判的眼光来审视自己的工作,而不是采用片面的求同方式。如果坚信自己或者别人是对的,一定要有全面的客观依据来支持。反之亦然。
好奇与创新——数据科学家必须对数据充满激情,并找到创新的方式来解决问题和描述信息。例如对于不同的客户群,要能够运用灵活的、创新的方法,正确的为客户提出最适合的解决方案。
沟通与合作——即使具有很强的定量和工程技能也是不够的。一个数据科学项目的成败取决于团队协作。数据科学家不是关在一个屋子里独自工作的。即便大部分数据科学家都是内向的,但是他们会走出自己的圈子,与客户、项目发起人、项目干系人、其它项目相关同僚合作,并能够采用清晰的方式表达出项目中的商业价值。
二、除去上述5个特点之外,数据科学家还会非常熟练的运用下列技能:
数据获取——熟练编写代码以从传统和非传统的数据源获取数据(例如:编写代码从微博抓取并清理非结构化数据。)
数据管理——提取、转换、加载(ETL)、查询、维护从数据库、key-value存储(例如CouchDB和MongoDB),和Hadoop里的数据
数据可视化——运用静态的数据可视化工具或是交互性的数据可视化平台(例如R、Python、D3.js、Tableau、Processing和Gephi)以发现并确认数据的模式
数据分析——灵活运用多领域的简单和复杂的技术。这些领域包括数学统计、机器学习、数据挖掘、自然语言处理等等。
故事讲述——用讲述故事的方式形象地为各种背景的听众展示总结的关键发现。
1、复习你的数学和统计技能
一个好的数据科学家必须能够理解数据告诉你的内容,做到这一点,你必须有扎实的基本线性代数,对算法和统计技能的理解。在某些特定场合可能需要高等数学,但这是一个好的开始场合。
2、了解机器学习的概念
机器学习是下一个新兴词,却和大数据有着千丝万缕的联系。机器学习使用人工智能算法将数据转化为价值,并且无需显式编程。
3、学习代码
数据科学家必须知道如何调整代码,以便告诉计算机如何分析数据。从一个开放源码的语言如Python那里开始吧。
4、了解数据库、数据池及分布式存储
数据存储在数据库、数据池或整个分布式网络中。以及如何建设这些数据的存储库取决于你如何访问、使用、并分析这些数据。如果当你建设你的数据存储时没有整体架构或者超前规划,那后续对你的影响将十分深远。
5、学习数据修改和数据清洗技术
数据修改是将原始数据到另一种更容易访问和分析的格式。数据清理有助于消除重复和?坏?数据。两者都是数据科学家工具箱中的必备工具。
6、了解良好的数据可视化和报告的基本知识
你不必成为一个平面设计师,但你确实需要深谙如何创建数据报告,便于外行的人比如你的经理或CEO可以理解。
本文来自作者[竹醉]投稿,不代表泰博号立场,如若转载,请注明出处:https://www.staplesadv.cn/ds/54952.html
评论列表(3条)
我是泰博号的签约作者“竹醉”
本文概览:1、统计和概率概率论和统计学是数据科学的基础。简而言之,统计学是使用数学对数据进行技术分析。在统计方法的帮助下,我们对进一步的分析进行估计。统计方法本身依赖于允许我们进行预测的...
文章不错《数据科学行业从业人员都要储备什么知识-》内容很有帮助