【年度钻石会员】云计算大数据

本课程为具有一定编程开发经验的学员而准备,从大数据基础增强开始, 内容精准聚焦大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等重要内容;涵盖了大数据体系中几乎所有的核心技术,包含Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、Impala、Hue、Oozie、Flink、kafka、Spark、Scala、SparkSQL、Hbase等。同时我们也提供了机器学习以及云计算的课程为学员的日后发展和就业保驾护航。

【年度钻石会员】云计算大数据插图

阶段学习,稳扎稳打,逐步深入巩固所学知识点

 

阶段一 : 大数据基础增强

  • linux操作基础

虚拟机的联网以及基础命令增强、linux的查找命令、linux的用户与用户组、linux的权限管理、linux系统服务管理、网络管理 、shell的变量定义、变量引用、算数运算符、流程控制语句、函数使用

  • JVM优化

熟悉jvm 参数,visualVM 工具,垃圾回收原理, JVM字节码分析等等

 

阶段二 : 大数据Hadoop离线分布式系统

 

  • 大数据基础和 硬件介绍

大数据集群基本环境准备、大数据集群环境的基础准备

  • Zookeeper组件

Zookeeper的应用场景、Zookeeper的架构和原理、Zookeeper的存储模型、Zookeeper的Znode创建、Zookeeper的选举机制、Zookeeper的客户端操作

  • HDFS组件

HDFS设计的特点、master-slave架构介绍、block块存储、RF拷贝因子、机架感知、block拷贝策略、namenode功能介绍、datanode功能介绍、Metadata元数据介绍、读写流程、HDFS Federation功能介绍、HDFS snapshots快照介绍、NameNode HA架构和原理、HDFS管理员常用操、HDFS权限控制

  • MapReduce

MapReduce设计的目标、MapReduce架构和原理、MapReduce快速入门、Mapper抽象类、Reducer抽象类、Split机制、Map和Reduce个数的确定、Combinar机制、Partition机制、自定义Partition、MapReduce序列化、MapReduce自定义排序、Mapreduce数据的压缩、InputFormat抽象类、自定义InputFormat、Recordreader机制、自定义、RecordReader、二次排序

  • Yarn组件

Yarn原理和架构、RM和NM功能介绍、Application Master功能介绍、Container介绍、Container资源的封装(CPU、内存和IO)
资源调度策略(FIFO、Fair和Capacity)、Fair Scheduler配置和使用、Yarn实现计算资源多租户配置和使用

  • Hive组件

Hive的功能介绍、创建表、本地加载数据、HDFS加载数据、基本数据类型、复合数据类型、静态分区、动态分区、临时表、Metastore服务、HiveServer2、内置函数、自定义UDF和UDAF、数据压缩、ORC、Parquet、自动化脚本、常见性能优化、explain执行计划详解

  • Impala组件

Impala的应用场景、架构和原理、安装、基本查询语法、shell交互窗口、数据加载、JDBC连接Impala、Impala的优化、invalidate metadata、compute stats使用

  • 辅助系统工具

sqoop hue impala kudu oozie flume azkaban组件功能介绍、架构和原理、多个案例整合

  • 网站流量日志分析

项目背景,日志埋点收集,数据预处理,数据入库,指标分析,统计分析,可视化

阶段三 : NoSQL、Kafka和ELK技术实战

 

  • redis组件

NoSQL介绍、Redis的原理和架构、Redis的使用、Redis的集群搭建

  • hbase组件

Hbase的应用场景、Hbase架构和原理、表的的创建和使用、列簇、多版本控制、增删改查操作、Java API操作、HFile读取、split操作、flush操作、compact操作、过滤器、RowKey设计和优化策略、HBase+Redis微博实战案例

  • kafka组件

为什么需要消息系统、kafka应用场景、kafka架构和原理、Kafka的CAP特性、topic(创建、修改和删除)、partition策略、自定义Partition、offset、replication、Message读写过程、Message的存储策略、producer、consumer、Consumer Group使用、Java API操作、监控工具和优化

  • ELK技术栈

Elasticsearch的功能、架构和原理、拷贝机制、Head插件、Index索引、Get、Delete、Update、聚合操作、监控插件bigdesk、DSL、SQL插件使用、ELK的应用场景介绍、Logstash的功能介绍、Logstash常用插件介绍、kibana的功能介绍、数据探索、可视化、常用插件使用、ELK实战

阶段四 : 大数据Spark内存计算系统

  • Scala语言基础

Scala基础、声明变量、数据类型、条件表达式、块表达式、循环、方法和函数、数组、元组、集合、Iterator、构造器、伴生对象、akka

  • Spark入门以及集群搭建

Spark集群环境搭建,spark入门程序,RDD入门

  • SparkRDD

Spark的应用场景、架构和原理、入门案例、Spark Session讲解、RDD的概念和特性、Transformation RDD讲解、Action RDD讲解、Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制、RDD的广播操作、DAG思想、DAG的生成、DAG的处理过程、运行机制、Driver和Executor

  • Spark SQL

Spark SQL功能介绍、DataFrame、DataSet、RDD、Dataset和DataFrame的转换、读写Hive表数据、读写HDFS的数据、DataFrame的API操作、读取文件(txt、CSV、Json、parquet)、临时表、读写RDBMS、Spark SQL执行计划、Spark SQL的性能优化

  • SparkStreaming原理_运行过程_特性g

sparkstring的功能介绍,架构,流计算Dstream运行原理

  • Structured Streaming_介绍_案例

Structured String的功能介绍、input功能、output功能、window操作、watermark操作、过期数据操作、去重数据操作、整合Socket数据、整合Kafka数据、OutputModel(Append\complete\update)功能、Flume+kafka+Structured Streaming实现用户访问行为的实时分析

阶段五 : Spark 项目实战

 

  • DMP

Kudu应用场景,项目介绍, Kudu原理,cdh环境搭建,kudu整合spark开发,项目框架搭建,报表统计,商圈库功能。

阶段六 : 大数据flink实时计算系统

  • Flink基础介绍

Flink的运行机制、Flink组件和逻辑计划、Flink执行计划生成、JobManager中的基本组件、TaskManager、算子、网络、水印WaterMark、任务调度

  • flink进阶

flink的状态管理、CheckPoint、flinksql及flinkTableApi

阶段七 : 大数据 flink 项目实战

  • Flink电商指标分析项目

上报服务系统开发、Flink实时数据分析系统开发、实时频道热点分析业务开发、实时频道PV/UV分析、实时频道用户新鲜度分析、实时频道地域分析业务开发、实时运营商分析业务开发、实时数据同步系统、Canal数据采集平台、number函数使用说明 case when 和row

阶段八 : 大数据新技术实战详解

  • Druid

Druid应用场景、集群搭建、数据加载、重要概念、架构及原理、数据查询、元数据、实时应用案例

阶段九 : 机器学习(选修)

  • 机器学习概念入门

1.基本概念:属性、属性的度量、属性类型、数据集类型、数据集的特性、训练集、测试集、特征值、监督学习、非监督学习、半监督学习等概念
2.数据的预处理:聚集、抽样、维度规约、特征子集选择、特征创建、离散化和二元化、变量变换
3.模型的评估:模型的过分拟合(过拟合),欠拟合,评估分类器的性能(交叉验证和自助法),模型评估方法、损失函数和风险函数、参数优化等,模型复杂度(奥卡姆剃刀)4.机器学习处理的一般流程分析

  • 机器学习数学基础

初等数学基础、函数求导以及链式求导法则、方向导数、梯度、泰勒级数、 拉格朗日乘子法、线性代数与矩阵、特征值与特征向量、概率分析、 极大似然估计、梯度下降法代码实践、牛顿法代码实战、 矩阵分解实战(SVD,PCA,QR)

  • 机器学习语言基础之Python语言

基础数据类型、list/tuple/dict/set、列表推导式、生成器推导式、 lambda函数、控制语句、文件读写、异常处理分析、面向对象编程、 GUI编程、Python基础项目实践

  • Python数据分析库实战

Numpy矩阵运算库基础及实战、Scipy数值运算库基础及实战、 Matplotlib绘图库基础及实战、Seaborn绘图库基础及实战、 Pandas数据分析库基础及实战

  • Spark机器学习库实战

SparkML和SparkMLLIB区别、Spark机器学习基础、Pipeline管道、 特征抽取(TF-IDF、Word2Vec、CountVectorizer)、特征转换(Tokenizer、 PCA、N-gram、DCT、one-hot、MinMaxScaler、Normalizer、SqlTransformer、VectorAssembler)、特征选择(VectorSlicer、RFormula、 ChiSqSelector)

  • 机器学习算法之用户标签预测项目实战

用户画像标签预测实战、KNN、KMeans、决策树算法模型(ID3、C4.5、 Cart树)、集成学习算法(Bagging、随机森林、Adaboost算法、GBDT算法、 XGBOOST算法、LightGBM算法模型)、人才流失模型项目实战

  • 机器学习算法之推荐系统实战

基于记忆的CF实战(Surprise库实战)、基于模型的CF实战(SparkALS实战)、 基于Native-Bayes分类算法实战、基于内容推荐(jieba分词、提取词向量、 文本分类、特征聚类)、关联挖掘算法实战(基于Spark的FP-Growth算法实战)、推荐项目实战

  • 机器学习算法之CTR点击率预估实战

特征工程实战、CTR点击率预估应用场景分析、 逻辑斯特回归算法理论基础推导及项目实战、推荐系统指标分析、 推荐系统架构分析、基于Wideanddeep模型理论及实战(学会读学术Paper)

  • 机器学习算法之深度学习基础及图片分类实战

神经网络和深度学习基础、MP神经元模型、感知机模型、BPNN模型实战、 CNN模型实战图像识别、Tensorflow基础、电影评论文本分析、 RNN文本情感分析实战

阶段十 : 云计算(选修)

  • 虚拟化

hypervisor管理类工具、QEMU、KVM、QEMU-KVM、libvirt、虚拟化技术概述,Xen、VMware、KVM虚拟化对比与实践

  • 公有云(阿里云)

公有云概述、阿里云应用实战

  • 私有云运维(OpenStack)

Openstack概述,OpenStack组件功能介绍,OpenStack安装与配置,OpenStack私有云运维实战;

  • 容器Docker+监控

Docker概述,Docker部署,Docker容器,Docker镜像仓库、Docker实战

  • 容器编排工具(Kubernates)

Kubernetes概述、Kubernetes安装与部署、Docker+Kubernetes集群实战

 

特色实战项目

 

  • 全方位用户画像

【年度钻石会员】云计算大数据插图2

1、标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。
2、标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。
3、标签标签是构建用户画像的基础,会产生两类用户画像,即个人用户画像和群体画像。个人画像,也叫360度用户视图,用于用户精准互动和专属服务,销售和运营等操作实务指导为主。群体画像是群体行为分析,群体行为洞察有利于做趋势分析、产品规划、营销决策等层面的工作。

 

  • 千亿级数据仓库

【年度钻石会员】云计算大数据插图4

数据仓库(Data Warehouse)简称DW或DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据,更加庞大的数据集。
数据仓库为企业所有级别的决策制定过程,提供所有类型数据支撑的战略集合,主要是用于数据挖掘和数据分析,以建立数据沙盘为基础,为消灭消息孤岛和支持决策为目的而创建的。
数据仓库的应用 1.数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶。 2.数据化运营、精准运营。 3.广告精准、智能投放。

 

 

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,请不要用于商业用途!
3. 如果你也有好的课程或者教程,可以投稿,分享有学币奖励和额外收入!
4. 如有链接无法下载、失效或广告,请联系管理员处理!
5. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
6. 如遇到加密压缩包,默认解压密码为"aixdata.com",如遇到无法解压的请联系管理员!
HONG'S学院 » 【年度钻石会员】云计算大数据

HONG'S 学院,专注分享有价值的知识资源

立即查看 了解详情