Kettle笔记 2 初见佳人

7
Kettle 笔笔 2 笔笔笔笔 笔笔 笔笔 2014-03-15 Kettle 笔笔 2 笔笔笔笔 笔笔笔笔 Spoon 笔 笔 笔 笔 一,, Pan笔 笔笔 Kitchen 笔 Pan笔 笔 笔 笔 笔 笔 一,,:、。 Kitchen 笔笔 XML笔 笔笔 。。 笔笔笔笔笔笔笔笔笔 ,。,,。,,, xml笔 笔笔笔笔笔 。, Kettle database repository笔 一、Kettle database repository 笔笔 ,, /笔笔笔 / 笔笔笔 admin/admin 笔 guest/guest笔“Kettle database repository”笔 1

Transcript of Kettle笔记 2 初见佳人

Page 1: Kettle笔记 2 初见佳人

Kettle 笔记 2 初见佳人作者:张孟志日期:2014-03-15

Kettle 笔记 2 初见佳人

基本概念

Spoon 是一个图形用户界面,它允许你运行转换或者任务,其中转换是用

Pan 工具来运行,任务是用 Kitchen 来运行。Pan 是一个数据转换引擎,它可以

执行很多功能,例如:从不同的数据源读取、操作和写入数据。 Kitchen 是一个

可以运行利用 XML 或数据资源库描述的任务。通常任务是在规定的时间间隔内

用批处理的模式自动运行。资源库是用来保存转换任务的,用户通过图形界面创建的转换任务可以保

存在资源库中。资源库可以使多用户共享转换任务,转换任务在资源库中是以

文件夹形式分组管理的,用户可以自定义文件夹名称。当然,资源库并不是必1

Page 2: Kettle笔记 2 初见佳人

须的,如果没有资源库,用户还可以把转换任务保存在 xml 文件中。为了方便

管理,建议用户建立并使用数据库类型资源库 Kettle database repository。资源库有两种形式:一、Kettle database repository,即保存在各种常见的数据库资源库类型,

用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是 admin/

admin 和 guest/guest。“Kettle database repository”类型资源库虽然有需要用户

和密码进行登录,但目前还没有相应的权限控制。二、Kettle file repository,保存在服务器硬盘文件夹内的资源库类型,此类

型的资源库无需用户进行登录,直接进行操作。 win7 系统下,“Kettle file

repository”类型资源库创建文件夹后,无法删除文件夹,不确定是 Kettle 工具本

身的 bug 或者是在 win7 操作系统下的 bug。

资源库用数据库

我们将使用“Kettle database repository”类型资源库,可以直白地认为是将

所有用户定义的 ETL 任务都保存在数据库中供 Kettle 使用。安装 MYSQL 数据库:mysql-5.5.13-win32。

2

Page 3: Kettle笔记 2 初见佳人

创建 Kettle 资源库使用的数据库与用户等。数据库实例“kettledb”,用户

“kettle”。//命令行 root 用户登录@>mysql -u root -p@>密码//创建用户CREATE USER kettle IDENTIFIED BY 'kettle';//创建数据库CREATE database kettledb;//赋权grant all privileges on kettledb.* to kettle identified by 'kettle';//刷新系统权限表flush privileges;exit;

Kettle 的安装

要运行 kettle 工具必须安装 Sun 公司的 JAVA 运行环境,kettle 4.2.0 需要运3

Page 4: Kettle笔记 2 初见佳人

行 java 1.6 或 者 更 高 版 本 , Kettle 的 下 载 可 以

到 http://kettle.pentaho.org(http://community.pentaho.com/projects/data-

integration/)取得最新版本——pdi-ce-5.0.1.A-stable.zip。Kettle 不需要安装,安装

好 java 环境后,在操作系统环境变量 path中配置 jre 路径,把 kettle 压缩包解压

后可直接使用。

Kettle 启动

Kettle 的启动只需要运行 Spoon 即可。下面是在不同的平台上运行 Spoon 所

支持的脚本:Spoon.bat:在 windows 平台运行 Spoon。Spoon.sh: 在 Linux、Apple OSX、Solaris 平台运行 Spoon。运 行 Spoon.bat , 出 现 资 源 库 连 接 界 面 , 我 们 需 要 新 创 建 一 个 “ Kettle

database repository”类型资源库。

4

张孟志, 03/15/14,
在《Kettle笔记 1 概述与项目编译》中下载的是4.4版本,在以后的应用中我会使用这个5.0.1;源码分析时还会使用4.4。这样做是为了看看旧有系统升级可能带来的问题。
张孟志, 14年3月15日,
还记得在《Kettle笔记 1 概述与项目编译》中手工编译的发行版吗?
张孟志, 03/15/14,
安装JDK后使用JAVA_HOM也可以。作为一位JAVA程序员,JAVA_HOM/PATH这种设置应该是电脑装机基本项目。JAVA_HOME=C:\Program Files\Java\jdk1.7.0_13\
Page 5: Kettle笔记 2 初见佳人

我们现在还没有数据库配置,新建一个数据库连接为资源库使用。

将上面创建的 kettledb 数据库配置好。“一般”、“高级”、“选项”、

“连接池”、“集群”这些选项卡简明易懂。这里只填写“一般”即可。填写

完数据库连接信息后点击“测试”,看看数据库是否可用。

5

Page 6: Kettle笔记 2 初见佳人

如果在使用 kettle-spoon client 连接 mysql 数据库建立连接的时候,遇到错

误:Caused by: java.lang.ClassNotFoundException: org.gjt.mm.mysql.Driver

解 决 方 法 : 从 地 址 http://dev.mysql.com/downloads/connector/j/ 中 下 载

6

Page 7: Kettle笔记 2 初见佳人

(mysql-connector-java-5.1.21.tar.gz)解压后,将 mysql-connector-java-5.1.11-bin.jar

复制到 data-integration\lib 中,然后重新启动 spoon.bat,再次连接 mysql 即可成

功连接。kettle 5.0.1 这个版本,刚刚更新出来,不仅没有对应数据库的驱动,也没

有相应的插件。测试成功后,“确认”完成数据库连接配置。为我们的资源库命名,然后创建它。

7

张孟志, 14年3月15日,
使用kettle 4.4版本,目前比较稳定。
Page 8: Kettle笔记 2 初见佳人

下面询问你是否要在资源库中执行一下 SQL语句,选“否”。

之后 Kettle Spoon 的主界面就启动了。

8