Hadoop、Hive、Zookeeper、Pig、HBase和Mahout等,都要认真学习

2018/09 作者:ihunter 0 0

近几年,大数据、云计算、物联网和人工智能先后走进我们的生活,我个人对这些新兴的前沿产业,也比较感兴趣,尤其是对大数据比较看好,个人认为,最先商业化的一定是数据,所以对数据比较情有独钟,以下是学习大数据其间,整理的干货,如下:

一、Hadoop

Hadoop生态系统安装部署(单机、伪分布式、完全分布式)

HDFS及读写原理

MapReduce V1、V2框架

WordCount编码详解

原理 Mapper、Reducer、Combiner、InputFormat、Writable、Comparable

HDFS HA原理、部署

数据去重、单表关联、多表关联、PageRank、二次排序、倒排索引、TF-IDF

二、Hive

Hive安装与配置

Hive 内建操作符与函数开发

Hive JDBC

hive参数

Hive 高级编程

Hive QL

Hive Shell 基本操作

hive 优化

Hive体系结构

Hive的原理

三、PIG

pig的概念及优点

关系(relation)、包(bag)、元组(tuple)、字段(field)、数据(data)的关系

FLATTEN操作符的作用

GROUP操作符

数据操作相关

多维度组合操作技巧

pig脚本

四、 Zookeeper

ZooKeeper安装配置

Zookeeper命令操作

构建ZooKeeper应用

管理分布式环境中的数据

ZooKeeper机制架构

一致性原理

ZooKeeper伸缩性

五、 HBase

Hbase基础概念

hbase数据模型

Hbase物理模型

Hbase架构

Hbase应用

六、 Mahout

一图胜千言,图片来自:Mahout学习路线图

Hadoop、Hive、Zookeeper、Pig、HBase和Mahout等,都要认真学习

七、 Sqoop

1、配置Sqoop 2、使用Sqoop把数据从MySQL导入到HDFS中 3、使用Sqoop把数据从HDFS导出到MySQL中

八、 Cassandra

Cassandra 的数据存储结构

Cassandra 节点的安装和配置

常用编程语言使用 Cassandra 来存储数据

搭建 Cassandra 集群环境、

Hadoop、Hive、Zookeeper、Pig、HBase和Mahout等,都要认真学习

未来几年,数据源将变得亦为重要,有兴趣的朋友,可以多看一下数据的概论,想在这一行走得更远的朋友,选择专业,可以选择智能科学专业,提前积累专业知识。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来。


赞(1) 更多分享

上篇: 推荐 :一小时建立数据分析平台
下篇: 大数据和人工智能领域最实用且绝对不能错过的10大网站