RapidMiner Studio是一个用于预测分析的可视化工作流设计器,可为分析团队中的每个人提供数据科学和机器学习。
当您处理任何类型的新项目时,通常第一步是转到白板,在那里您将规划工作流程并确定实现目标的关键步骤。如果您是数据科学家,工作流程通常包括以下一个或多个步骤:
- 导入数据
- 准备数据
- 建立一个模型
- 验证模型
- 应用模型
RapidMiner Studio在设计视图中以软件实现您的白板工作流程。设计视图包括许多面板。
- 数据,进程和结果存储在存储库中。
- 每个工作流程的基本要素都称为操作员。
- 操作员通过端口连接。第一个的输出作为输入传递给第二个。
- 一组连接的操作符可帮助您转换和分析数据,称为过程。
- 可以通过更改其参数来修改运算符的行为。
- 阅读“ 帮助”可以理解操作员的行为。
下面将更详细地研究这些术语中的每一个。
默认视图
处理
流程:一组连接的操作符,可帮助您转换和分析数据。
又称:流程,程序,管道,图表
您的目标是创建一个完成的过程,一组生成结果的连接的操作符。例如,您的流程可能会读取数据集并构建预测模型。连接所有操作员并设置其参数后,按下用户界面顶部的“运行” 运行箭头按钮,结果将显示在“ 结果视图”中。
正如运行流程中所讨论的,运行流程的方法不止一种。你可以运行它:
- 本地
- 在后台
- 在RapidMiner服务器上
- 在RapidMiner Server上,作为计划进程
随着流程规模的扩大,您需要一些方法来管理其复杂性。
- 您可以通过将运算符组移动到单个运算符中来隐藏复杂性Subprocess。
- 您可以通过运营商从另一个流程中运行流程Execute Process。
要将进程保存到存储库,请从主菜单中选择File> Save Process。
您可以通过首先将其导出到XML文件来轻松共享流程:
- 要导出该过程,请选择File> Export Process。导出对话框允许您将文件另存为.rmp或.xml; 实际上,这两种文件格式都是相同的(XML)。
- 要导入该过程,请选择File> Import Process。
端口
要构建进程,必须通过端口将每个运算符的输出连接到下一个运算符的输入。要连接两个端口,请单击它们。将鼠标悬停在端口以查看包含其他信息的工具提示。连接两个运算符时,需要确保第一个的输出端口与第二个的输入端口兼容,否则您将收到错误消息。操作员帮助中描述了每个操作员的输入和输出端口,并在入门词汇表中给出了完整的端口列表。
如果要在结果视图中查看结果,则必须将流程中的最后一个操作员连接到“处理面板”右侧的结果端口(“res”)。
提示:双击输出端口,它将连接到下一个可用结果(“res”)端口。
以下示例显示了一个简单的过程,其中来自Excel文件的数据是(1)读取,(2)存储在存储库中,(3)显示在结果视图中。
一个简单的过程
下面的屏幕截图显示了由Auto Model生成的更复杂的过程。
一个更复杂的过程
知识库
存储库:本地或远程存储数据,进程和结果的位置。
也称为:文件夹,工作区,项目
使用RapidMiner Studio时,您需要一个可以保存工作的地方。该库可用于存储:
- 数据
- 流程
- 结果
存储库可以是本地的或 远程的,以便于组协作。它是存储流程的自然场所(File> Save Process); 是否将数据和结果保存在存储库中取决于您的用例。
首先,您的数据可能存在于文件或数据库中。RapidMiner Studio提供众多操作员来帮助您导入数据,例如,Read Excel 或Read Database。要启动“导入数据”向导,请Import Data在“存储库”面板中单击,或从主菜单中选择“ File> Import Data”。
给定数据和过程,您的结果总是可以重新生成,但可能有充分的理由将结果存储在存储库中:
- 如果结果是基于大型数据集的复杂模型,则重新生成它将花费时间。
- 如果您在RapidMiner Server上运行进程,则需要存储结果(使用Store运算符),因为RapidMiner Server 与RapidMiner Studio中的结果视图不同。
捆绑的存储库
对于新用户和有经验的用户,与RapidMiner Studio捆绑在一起的存储库是非常宝贵的资源。它们提供了大量的样本数据集和样本流程,以及解释性说明。
- 该Training Resources库是一大组设计作为一个伴侣的培训课程和培训在在线数据集和流程的RapidMiner学院。我们鼓励您利用这些免费课程来练习您的技能。
所述Samples库包含附加的数据集和过程,包括下时间序列的例子Samples> Time Series。 - 该Community Samples库是我们的顶级用户在发布的数据集和处理的专门收集RapidMiner用户社区,而不是由RapidMiner队。每个进程都包含一个标题,命名作者,简要说明目的,并链接到它的起源线程。我们鼓励用户在使用之前阅读每个流程附带的在线会话,因为此存储库中的流程不一定按发布的方式运行。
运营商
运算符:进程的元素,每个运算符接受输入并根据参数的选择创建输出。
又称:函数,公式,节点
要有效地使用RapidMiner Studio,您必须了解其运算符。RapidMiner Studio包含数百个操作员,因此很大一部分任务是学习如何找到所需内容。与搜索一样,有两种主要策略: 分层搜索和关键字搜索。该RapidMiner社区也是支持的来源。
要验证您找到的操作员是否具有您期望的功能,请阅读“ 帮助”。
找到所需的操作员后,至少有3种方法可以将其输入到处理面板中。
-
拖放操作员
-
双击“运算符”
-
右键单击“运算符”,然后Insert Operator从上下文菜单中进行选择。
分层搜索
“ 操作员”面板中的文件夹层次结构反映了典型的数据科学工作流程:
- 数据访问
- 混纺
- 净化
- 造型
- 评分
- 验证
- 效用
- 扩展
通过打开这些文件夹及其子文件夹,您将了解可用的内容。
可以在docs网站上检查相同的层次结构,其中包括每个运营商的帮助。
关键词搜索
替代方案是关键字搜索。虽然操作员面板包含搜索字段,但建议的过程是使用用户界面右上角的全局搜索。全局搜索不仅可以找到操作员,还可以找到来自存储库的数据和进程,来自市场的扩展,甚至可以从菜单中获取的操作!
提示:当您悬停全局搜索显示的操作员时,该操作员的帮助将立即显示在“ 帮助”面板中。如果您首先最大化“帮助面板”,则可以快速扫描搜索中显示的所有操作员的“帮助”页面。
重新配置设计视图
要优化屏幕空间,您可以考虑重新组织面板。首先请注意,您可以右键单击与任何面板连接的选项卡,然后选择以下选项之一:
- Detach - 面板与RapidMiner Studio分离。
- Maximize - 面板填充分配给面板的整个空间。
- Close - 面板已从用户界面中删除。
例如,如果需要更多空间来阅读“帮助”,则可以最大化“帮助”面板,然后再次单击“面板”选项卡以将用户界面还原到其原始状态。如果您不需要面板,可以关闭它。可以通过View> 下的菜单项恢复关闭的面板Show Panel。
通过拖放可以进行其他配置:
- 面板可以调整大小
- 面板可以移动
- 面板可以显示为选项卡。
下表总结了可用的面板,其中大部分未显示,例如,XML面板,显示流程的XML表示。以粗体显示的面板是默认面板。要显示此列表中的面板,请从View> 下面的菜单中选择它Show Panel。
上下文 高级流程设置和宏
面板 | 描述 |
---|---|
应用对象 | 模拟RapidMiner Server App环境 |
背景监视器 | 管理后台流程和结果 |
云监视器 | 管理云流程和结果 |
上下文 | 高级流程设置和宏 |
数据编辑器 | 提供类似电子表格的数据操作 |
救命 | 所选运营商的文档 |
历史 | RapidMiner Server上进程的版本控制 |
日志 | 查看录制的事件 |
宏 | 已定义宏的实时概述 |
运营商 | 所有操作员都可以添加到您的流程中 |
概观 | 针对大型流程的缩小概述 |
参数 | 在流程中配置操作员行为 |
问题 | 查看流程中的潜在问题 |
处理 | 在此处创建和设计您的流程 |
知识库 | 管理您的数据和流程 |
资源监控 | 显示当前使用的RAM |
结果历史 | 所有过程的历史记录都会导致本次会话 |
Server Monitor | 在RapidMiner Server上运行的进程 |
XML | 您的流程的XML表示 |