Home » Training » Data Analytic and machine learning on Apache Spark and Storm

Data Analytic and machine learning on Apache Spark and Storm

Data Analytic and machine learning on Apache Spark and Storm

课程目的(Objective)

大数据和机器学习是美国目前最热的话题之一, 也是未来几年工作机会最多的领域。 在大数据分析中, 对算法的理解和模型的建立是最难,也是最有挑战的课题, 这些方面的培训众多,可惜因为涉及的数学基础及本身内容的难度, 常常使培训事倍功半。另一类培训着重介绍某些工具和库, 如Scikit Learn, 初学者容易上手, 但大都会停留在肤浅的层面,很难进步。 本课程以培养数据工程师(Data Engineer)为目的, 通过我们参加和实现过的大数据项目为例,结合一些开源的数据分析公开项目, 让大家在编程的实践中体会数据工程师的职责和需要的素养。我们认为学习一门新技术,熟悉一个新平台的最好方法是:使用这个平台,在这个平台上练习新技术。

目标对象(Audience)

对大数据和机器学习技术有兴趣,希望能在短时间类掌握一项数据分析技术/平台的软件工程师和构架师。

前期资格(Pre-requisites)

至少有3-5 年系统开发工作经验, 至少精通一门编程语言;

有一定的Python编程基础

对算法和数据结构有一定的了解;

内容概述 (Outline)

  • 最近流行的BigData技术,产品和平台

Hadoop echo system, Spark, Storm

Machine learning technologies

Big players: Google Big Query, Microsoft Azure Machine Learning Studio, AWS

  • Data Analytic basics

ETL

Exploratory Data Analysis

  • BasicMachine Learning Algorithms
  • Stormproject 实例
  • Sparkproject 实例
  • com和其他的数据分析竞赛
  • 总结: DataEngineer的职责和应掌握的技术。 大数据技术前景和工作机会。