0%

在开发项目时,代码注释很重要。如果初期不注重代码规范,项目会在后期变得很难维护(当然如果是外包项目,一次交付注释写不写都没多大差别。),特别是核心业务人员离职后会严重影响项目开发的进度。

阅读全文 »

Presto 是一个分布式的 SQL 查询引擎,非常适合用于 OLAP 场景。官方也许因为版权原因没有提供 oracle 的插件,oracle 在实际场景中还是使用的非常多的,有必要介绍些插件开发的流程。如果读者只是部署,不做开发,可以 clone 我托管在 GitHub 的Presto 来进行编译、部署。

阅读全文 »

因为项目使用Presto作为ETL使用,需要将关系库中的数据导入到Hive中。目前关系库中的数据每天导入一次,在Hive中以天为间隔创建新的分区。思路是正确的,但是在使用的过程中,发现将少量关系库中的数据通过Presto快速并多次导入到Hive中时会出现如下错误:

阅读全文 »

最近需要使用远程执行 Shell 命令,网上也有很多教程,但一般都是远程分发文件或者需要实现 UserInfo 接口,感觉都不够简介或者不满足我的需求。经过上网查询、翻阅官网终于发现可以实现我想要的功能了。

参考:http://wiki.jsch.org/index.php?Manual%2FExamples%2FJschExecExample

阅读全文 »

在 Kettle 中集群是由节点组成的,这些节点可以在不同的服务器上,也可以在同一台服务器上。

阅读全文 »

最近一直在研究 Kettle 的实现原理,经过大约一个月的时间对 Kettle 有了一个清晰的认识,在此记录自己的研究成果。我研究过程中使用的 Kettle 为6.1.0版本,本系列教程将会一常用操作和源码两个方面进行讲解。

阅读全文 »

因为 Presto 版本的更新速度较快,所以最好按照对应版本的教程进行部署,博主之前看错了版本号,拿0.100版本的教程来部署0.157版本,结果导致部署失败。

阅读全文 »

Presto 在国内主要是京东和美团在使用,其中 Presto 在中国的官网是由京东维护的。当然,京东为了满足自己的需求对原生的 Presto 进行了一些改在,所有京东版的 Presto。我这边文章介绍的是原生 Presto 的编译流程,也就是 Facebook 公司的 Presto。

阅读全文 »