咔片PPT · AI自动生成演示文稿,模板丰富、排版精美 讯飞智文 · 一键生成PPT和Word,高效应对学习与办公

概述

Microsoft Excel input(Excel输入)此步骤提供了从Microsoft Excel读取数据的能力。以下部分描述用于配置此步骤的每个可用特性。

默认的电子表格类型(引擎)设置为Excel 97-2003 XLS。当您正在读取其他文件类型(如OpenOffice ODS或Excel 2007)并使用特殊功能(如受保护的工作表)时,需要相应地更改文件选项卡中的表格类型(引擎)。

选项介绍

Microsoft Excel input(Excel输入)步骤有以下选项:

Step name(步骤名称):在画布上指定Microsoft Excel input(Excel输入)步骤的唯一名称。您可以自定义名称或将其保留为默认名称。

  • 文件选项卡包含如下选项

Spread sheet type (engine)(表格类型(引擎)):选择电子表格类型。支持以下类型:Excel 97-2003 XLS(JXL):默认选项,这是JXL软件后端提供的向后兼容类型;Excel 2007 XLSX (Apache POI):如果选择此工作表类型,则可以读取所有已知的Excel文件类型。Apache POI项目提供的功能;Excel 2007 XLSX (Apache POI Streaming):此扩展表类型允许您读取大型Excel文件;Open Office ODS:通过选择这种类型,您可以使用ODFDOM引擎读取OpenOffice电子表格。

File or directory(文件或目录):指定输入文本文件的位置或名称。如果源未在字段中定义,请指定源位置。单击浏览导航到源文件或目录。单击增加以在选中的文件表中包含源。

Regular expression(正则表达式):指定一个正则表达式来匹配指定目录中的文件名。

Exclude Regular Expression(正则表达式(排除)):指定一个正则表达式以排除指定目录中的文件名。

Password(密码):设置密码保护时,请指定打开Excel文件的密码。

Accept filenames from previous steps(从前面的步骤获取文件名):检查前面的步骤,其中包含文件名和用于读取数据的输入字段。

  • Selected Files(选中的文件)列表中列信息介绍

File/Directory(文件/目录):单击增加所指示的源位置。

Wildcard (RegExp)(通配符号):正则表达式中指定的通配符。

Exclude wildcard(通配符号(排除)):排除在排除正则表达式中指定的通配符。

Required(要求):输入所需的源位置。

Include subfolders(包含子目录):源位置中是否包含子文件夹。

单击删除从表中删除源。单击编辑从表中删除一个源,并将其返回到文件或目录选项。

使用显示文件名..来显示成功连接到Excel输入步骤的源的文件名。

  • 工作表选项卡包含如下选项

使用工作表选项卡中的表指定从Microsoft Excel源文件读取数据的工作表和网格位置。

Sheet name(工作表名称):在Excel工作簿中要读取的工作表的名称。

Start row(起始行):工作表中要读取数据的起始行。行号是从0开始的。

Start column(起始列):工作表中读取数据的起始列。列号是从0开始。

您还可以通过清除工作表名称并只输入第一行的开始行和列来读取工作簿中的所有工作表,这将用于所有工作表。要阅读工作簿中的所有工作表,不要指定任何工作表名称(将工作表名称留空)。对于这种情况,每个工作表的字段结构需要相同。

单击“获取工作表名称...”以在文件选项卡中通过文件或目录指定的源文件中的所有工作表来填写该表。

  • 内容选项卡包含如下选项

Header(头部):设置工作表选项卡中指定的工作表是否包含要跳过的标题行。

No empty rows(非空记录):如果不希望此步骤的输出中出现空行,请选中此项。

Stop on empty rows(停在空记录):当遇到空行时,选择停止读取文件的当前工作表。

Limit(限制):指定此步骤生成的记录数量的限制。当设置为0时,结果不受限制。

Encoding(编码):指定要使用的文本文件编码。如果此选项留空以则使用默认的系统编码。第一次使用时,PDI会在系统中搜索可用的编码。要使用Unicode,请指定UTF-8或UTF-16。

  • 错误处理选项卡包含如下选项

Strict types?(严格类型?):选择让PDI在读取时报告数据类型错误。

Ignore errors?(忽略错误?):选择是否希望在解析期间忽略错误。通过在警告文件目录、错误文件目录和失败的记录数文件目录中指定路径,可以将这些行转储到单独的文件中。清除此选项可使带有错误的行在此输出中显示为空值。

Skip error lines?(跳过错误行?):选择让PDI跳过包含错误的行。

Warnings file directory(告警文件目录):指定生成警告时放置警告的目录位置。结果文件的名称为/filename..

Error files directory(错误文件目录):指定发生错误时放置错误的目录位置。结果文件的名称为/filename..

Failing line numbers files directory(失败的记录数文件目录):指定在出现解析错误时所在的目录位置。结果文件的名称为/filename..

  • 字段选项卡包含如下选项

Name(名称):映射到Excel输入流中相应字段的字段的名称。

Type(类型):输入字段的数据类型。

Length(长度):字段的长度。

Precision(精度):用于数字类型字段的浮点数。

Trim type(去除空格类型):应用于字符串的修剪方法。

Repeat(重复):如果行为空,则重复最后一行的对应值。

Format(格式):用于转换原始字段格式的可选掩码。

Currency(货币符号):货币符号(例如$或€)。

Decimal(小数):小数点可以是.(例如5,000.00)或,(例如5.000,00)。

Group(分组):分组可以是,(例如10,000.00)或.(例如5.000,00)。

  • 其他输出字段选项卡包含如下选项

Full filename field(文件名称字段):指定包含完整文件名和扩展名的字段。

Sheetname field(工作表名称字段):指定包含要使用的工作表名称的字段。

Sheet row nr field(表单的行号列):指定包含要使用的当前工作表行号的字段。

Row nr written field(行号列):指定包含写入的行号的字段。

Short filename field(文件名字段):指定包含不带路径信息但带扩展名的文件名的字段。

Extension field(扩展名字段):指定包含文件名扩展名的字段。

Path field(路径字段):以操作系统格式指定包含路径的字段。

Size field(文件大小字段):指定包含数据大小的字段。

Is hidden field(是否为隐藏文件字段):指定文件是否隐藏的字段(布尔值)。

Last modification field(最后修改时间字段):指定表示文件最后一次修改日期的字段。

Uri field(Uri字段):指定包含URI的字段。

Root uri field(Root uri字段):指定只包含URI根部分的字段。

元数据注入支持

您可以在ETL元数据注入步骤中使用元数据注入支持的字段,以便在运行时将元数据传递给转换。以下选项字段和值在Excel输入步骤支持元数据注入:

选项:File and Directory,Regular Expression,Exclude Regular Expression,Is file Required,Include subfolders,Spreadsheet type,Sheet name,Sheet start row,Sheet start col

字段:Name,Type,Length,Precision,Trim Type,Repeat,Format,Currency,Decimal,Grouping

示例

双击输入中的Excel输入,添加一个Excel输入。

Excel输入

然后双击添加的步骤进行编辑。


编辑Excel输入

然后点击浏览(B),选择一个Microsoft Excel文件。然后点击增加(A)。

Microsoft Excel文件内容如下:


Excel文件内容


添加Excel文件

然后切换至工作表选项卡,点击获取工作表名称。

获取工作表名称

示例,点击选中表“user_list”作为演示。

然后切换至字段选项卡,点击获取来自头部数据的字段。


最后点击预览记录,预览Microsoft Excel文件中的数据。