HBase单机RegionServer的JVM参数配置

HBase一般都是采用分布式的形式部署的,但是这样比较浪费服务器资源,除非是用在比较有价值的业务场景。一般单机部署时最好将HBase的各个服务以单独的进程运行,否则所有的服务都运行在HMaster进程中不好排查问题。因为在HBase中Reg … 继续阅读 HBase单机RegionServer的JVM参数配置

最新 Zookeeper + Flume + Kafka 简易整合教程

在大数据领域有很多耳熟能详的框架,今天要介绍的就是 zookeeper、flume、kafka。因为平时是做数据接入的,所以对这些实时的数据处理系统不是很熟悉。通过官网的简要介绍,搭建了一套简要的平台,主要实现的功能是消费 kafka 中从 … 继续阅读 最新 Zookeeper + Flume + Kafka 简易整合教程

Centos6.4 minimal 离线安装单机版 CDH5.9 详细教程

因为最近在开发大数据平台的中间件,需要一些基本的大数据的基本开发环境,如Hadoop,Hive,Sqoop等。所以决定使用CDH,但是因为笔记本是机械硬盘,如果建三个虚拟机每次回复快照比较慢,所以想搭建一个单节点的CDH5.9。虚拟机内存建 … 继续阅读 Centos6.4 minimal 离线安装单机版 CDH5.9 详细教程

Presto 向分区表快速插入数据时出现’target directory already exists’的原因

因为项目使用Presto作为ETL使用,需要将关系库中的数据导入到Hive中。目前关系库中的数据每天导入一次,在Hive中以天为间隔创建新的分区。思路是正确的,但是在使用的过程中,发现将少量关系库中的数据通过Presto快速并多次导入到Hi … 继续阅读 Presto 向分区表快速插入数据时出现’target directory already exists’的原因