拥有这样一份修炼指南,可以让你成为不秃头的数据工程师!

yoku酱 · · 1256 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

也许想要从事数据研究领域的你,一直不太清楚数据工程师和数据科学家之间的区别,甚至不少人可能觉得这就是一回事儿。如果你真的这么想,那就大错特错啦!这两种职位的差异如今正在逐步加大,如果你不能深入地了解异同之处,那未来等着你去踩的雷绝对不在少数。这篇文章,不得不读!

在这里我还是要推荐下我自己建的大数据学习交流qq裙:458345782, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

数据工程师的工作技术性很强。他们负责设计和维护数据系统架构,这其中涵盖了从基础设施分析到数据仓库等众多概念。数据工程师需要对常用脚本语言有深入的理解,并通过利用和改进数据分析系统,稳步提高数据质量和数量。他们还负责创建用以建模、挖掘、验证和获取数据的步骤和流程。

据预测,行业内对技术娴熟的数据工程师的需求量将快速增长。在现代世界,企业、组织需要稳固的数据架构以获取和存储数据。当一个企业壮大到需要运用数据科学时,就需要数据工程师了。其结果便是当下对数据工程师的急切需求。

一些企业以为所需的数据工程的技巧和经验可以在项目中得到学习和积累。而Umbel的资深主管Kevin Safford认为,这样想通常都是错的。他补充道:“如果没有具体地认真学习,实实在在地去构建数据管道、数据管理系统、数据分析以及编写所有的中间代码,使数据可用、可访问并确保其正确,并确保分析的正确性——如果你没有这些经验,你可能就会以为这些东西慢慢就能学会。我见过很多人都这样想。他们多数都是错的,错的还都一样。”

数据工程师vs数据科学家

数据工程师和数据科学家的技能和责任常常重合,然而这两种职位的差异却在逐步加大。


数据科学家侧重将大数据转化为商业智能,而数据工程师更多地在为数据生成建设数据架构和基础设施。数据科学家的工作环境和基础设施需要数据工程师来创造。


数据科学家更注重与基础设施的互动,而不是对其进行建设和管理,其责任还包括把原始数据转化为有用、可理解、可执行的信息。数据科学家研究大数据,而数据工程师研究数据基础设施和数据基础。

数据基础


数据基础支撑所有形式的报告和分析。数据工程师的目标便是提供可信、完整且最新的数据以支持报告和分析。稳固的数据基础将使企业受益巨大,使其更高效地行动和决策。其益处包括:

增加组织的交流与合作

数据的一站式购买

保存记录的单一版本

支持企业内信息理解共识的达成


没有高效的数据基础,企业组织的安全风险会增高,组织内部也会变得低效。不牢固的数据基础对一个问题会产生多个答案,也不足以支撑智能商业决策。

大数据工程技能


数据工程师需要对数据库管理有很好理解,包括深入了解结构化查询语言(SQL)。它们需要建设基础设施、工具、框架和服务。一些人认为数据工程更加偏向软件工程和应用程序研发而不是数据科学。其他有用技能包括:

Apache Hadoop, Hive, MapReduce和Hbase的使用经验。

机器学习(ML)是数据科学家的研究重点,但对其的一些了解对数据工程也很重要。ML和大数据联系紧密。(ML简化了大数据的处理流程,提供处理大数据的技术并使其合理化。)

代码知识绝对是加分项。熟悉 C/C++, Java, Python, Perl, Golang或其他语言会很有用。掌握Linux, UNIX和Solaris 也很有帮助,因为这些是操作系统功能与硬件的根源。

对数据工程师来说,ETL(数据抽取、转换和加载)经验是必须的。ETL是从源系统提取数据并将其存储在数据仓库的数据仓库建设过程。熟悉Segment或Oracle Warehouse Builder等ETL工具和Panoply或Redshift等数据存储解决方案是很有用的。 

ETL(数据抽取、转换和加载)


计算机领域中,ETL被用于数据库和仓库构建。数据抽取、转换和加载在二十世纪七十年代开始盛行。数据抽取指的是从同构和异构数据源中提取数据。数据转换是说数据为便于存储(之后被研究和分析),被转化成合适的结构或形式。数据装载是指把数据下载并转移到数据集市、数据存储区或数据仓库的过程。


设计完善的ETL系统可以从源系统提取数据并保证数据一致性与质量标准。还能以预备演示的形式传输数据,允许开发人员开发应用程序,而终端用户则决定其价值。


传统上,ETL系统集成来自应用程序、不同供应商和计算机硬件的数据。含有原始数据的独立系统常被不同的人操作和控制。比如,工资记账系统的管理者可能会把销售和采购的数据结合起来。

数据仓库


数据仓库被用来存储、汇报和分析数据。对于现代商业智能,它的发展很重要。数据仓库集中存储一个或多个来源的集成数据,它们同时存储当前数据和历史数据,可用于开发分析报表。


没有数据仓库的话(或其更新的结构副本数据湖),大数据及任何数据科学相关的加工处理会变得非常贵或难以规模化。没有精心设计的数据仓库,分析者研究相同问题很容易得到不同结果。或在研究成品数据库(没有数据仓库的情况下)无意间导致延迟或运行中断。

成为数据工程师

大致上来说,成为数据工程师要取得信息技术或计算机科学学位证书并有其他相关培训。由于每种工作环境的要求越来越个人化,数据工程教学也更加灵活。


你的学位和专业训练很重要,但还不够。额外证书也很有价值,有用的包括:


CCP数据工程师认证考试(Cloudera认证数据工程师证书)——提供了ETL工具和分析学的经验证明。

谷歌的证书——证明熟悉基础数据工程技能。

IBM认证数据工程师(大数据)——传达的是具备大数据应用的工作经验。


辅助认证同样可行。比如MCSE(微软认证解决方案专家)包含了很多主题,对特定主题还有附加认证,包括MCSE:数据管理和分析学;MCSA(微软认证系统管理员):商业智能报表;和MCSA:微软云平台。此外,一些数据行业活动也能够提供很棒的培训和教学资源(同时提供进入互联网的良好机会)。还有很多网络课程,能根据具体的情况提供有效培训。

在这里我还是要推荐下我自己建的大数据学习交流qq裙:458345782, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴


有疑问加站长微信联系(非本文作者)

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

1256 次点击  
加入收藏 微博
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传