文本分析五部曲之1-Rosette文本扩展介绍及安装

Rosette文本扩展介绍及安装

引言:什么是Rosette?

Rosette,作为RapidMiner的文本挖掘扩展,是市场上最广泛使用的多语言信息提取解决方案。

Rosette®文本分析是一个强大的工具包,可用于处理多语言文档名称等。

在政府,金融,电子商务,搜索,社交媒体等领域的全球客户依赖Rosette文本分析来分析大量数据。百分之八十的大数据作为非结构化文本存在,非结构化文本也是多语言的,Rosette为企业提供巨大的价值,能够将非结构化文本转换为可行的见解验证身份防止灾难等。

整合了 Rosette TextToolkit 的 RapidMiner Studio,我们就可以处理任意的文本挖掘任务了!您也可以尝试不同的算子,包括提取文本,分类,情感分析,形态分析,分词,句标记,名称翻译和名称匹配等。

1

First:下载扩展工具

打开RapidMiner Studio,导航到扩展(Extensions)菜单并在下拉菜单中选择应用市场(Marketplace)

之后将打开一个新窗口,请在搜索栏目中搜索“rosette”,然后从结果列表中选择Rosette Text Toolkit。单击窗口底部的“Install 1 Packages”按钮,然后按照点击后说明完成安装。

2

一旦扩展完成安装,Rosette扩展将会在算子(Operators)操作面板的扩展文件夹中可见。

3

Second:获取RosetteAPI密钥

为了激活用于RapidMiner Studio的Rosette文本工具包,您需要一个API密钥和一个Rosette开发人员帐户。进入如下网址developer.rosette.com并完成注册。

建议绑定github,既方便又好使。

4

您可以创建一个链接到您的电子邮件或GitHub帐户,不需要信用卡 – Rosette 默认提供每天10,000条免费调用!超过1万条需要付费。

PS:注册邮箱为企业邮箱,推荐学生邮箱。进入CUP学生邮箱

5

完成注册并验证您的帐户后,点击菜单栏左上角的API密钥标签以显示您的密钥。

6

Third:设置RosetteAPI连接

返回RapidMiner Studio,输入您的Rosette API密钥后就可以开始使用所有的Rosette算子。下一部分将会讲解,如何实体操作中查看提取算子,并使用它来设置Rosette API连接。

首先,在算子“Operators”面板的Rosette Text Toolkit文件夹中找到文本提取“Extract Entities”,并将其拖动到流程“Process”面板。

7

您可以在流程“Process”面板右侧的参数“Parameters”面板中查看文本提取“Extract Entities”算子的各种参数设置选项。第一个参数是连接“Connection”。 单击框右侧的Rosette图标。

8

打开管理连接“Manage Connections”窗口。 单击左下角的添加连接“AddConnection”按钮,然后从 连接类型“Connection type” 下拉列表中选择”Rosette Connection”。 为新连接命名,然后单击创建“Create”按钮。

9

从左侧列表中选择新的“Rosette API”连接,然后在API KEY框中输入Rosette API密钥。 使用窗口底部的测试“Test”按钮来验证连接是否正常工作。 如果遇到问题,请确认API密钥是否正确。当确信一切运行顺利时,单击保存所有更改按钮“Save all changes”以返回到参数“Parameters”面板。

10

从连接Connection下拉列表中选择您的新连接。

11

现在您已设置好Rosette连接了。