小言_互联网的博客

《机器学习入门实战》第 03 篇 加载本地、网络以及数据库中的数据集

276人阅读  评论(0)

上一篇我们安装并简单介绍了 Orange 机器学习工具的使用。

根据以下数据挖掘的标准流程,数据是一切操作的基础;因此我们今天就来讨论如何在 Orange 中加载各种数据,包括本地数据文件、网络数据、数据库中的表以及手动创建数据集。

加载本地文件

Orange 加载本地数据文件的组件主要有 File 和 CSV File Import。

File 组件

启动 Orange 软件之后,在左侧的 Data 组件分类下单击 File 组件图标,右侧的工作区会出现一个文件组件。


File 组件可以用于打开本地文件和网络上的 URL 资源。双击工作区中的 File 组件,打开设置界面。


Orange 为我们提供了一些常用的数据集,默认打开的是经典的鸢尾花数据集(iris.tab)。tab 文件是 Orange 默认使用的本地格式文件,使用 TAB 分隔符表示的文本文件。关于 Orange 本地数据格式我们在下一篇详细介绍。

除此之外,Orange 还支持 Excel、CSV 、TSV、Python pickle 序列化文件等以及这些文件的压缩格式。点击“📂… .”按钮可以选择打开其他的数据文件。

为了查看数据集,我们在工作区再创建一个 Data Table 组件;然后点击 File 组件右侧的虚线,按住左键移动到 Data Table 组件的左侧虚线;此时虚拟变成了实线,表示建立了一个数据通信的渠道,数据集将会从 File 组件传递到 Data Table 组件。


此时双击打开 Data Table 组件,可以查看数据集中的数据。


Data Table 显示了关于数据集的一些信息。

CSV File Import 组件

CSV File Import 组件也可以用于加载本地的 CSV 格式文件,包括逗号分隔符、分号分隔符、空格分隔符、TAB 分隔符以及自定义分隔符文件。


指定文件之后,点击“Import Options”设置导入选项。


我们可以根据实际情况设置文件的编码、分隔符、字符串的引用符号以及数字的分隔符等,并且查看数据预览。点击“OK”按钮完成设置。

📝CSV File Import 组件的输出可以设置为 Data Frame,也就是 Python pandas 模块中的 DataFrame 对象,作为 Python Script 组件的输入。Python Script 组件提供了 Python 脚本编程的功能。

加载网络数据

Orange 加载网络数据的组件主要有 File 和 Datasets。

File 组件

File 组件支持输入 URL 加载网络上的数据文件,直接在设置页面选择“URL:”并输入文件的网络地址。我们输入:http://file.biolab.si/datasets/sample.xlsx,这是官方提供的一个示例数据。然后点击“Reload”按钮加载数据。


接下来的操作和本地文件一样,也可以打开 Data Table 组件查看详细数据。

Datasets 组件

Datasets 组件可以用于加载在线资料库中的预置数据集。


打开 Datasets 组件设置页面,选择并双击加载数据集。


每个数据集都提供了描述信息,以及数据大小、实例数量、变量个数、目标变量的类型和标签。

打开 Data Table 组件查看数据。

连接数据库

通过 SQL Table 组件可以访问 SQL 数据库中的表,该组件目前支持访问 PostgreSQL(需要安装 psycopg2 模块)和 SQL Server(需要安装 pymmsql 模块)数据库。我们以连接 PostgreSQL 数据库为例,首先在命令行输入以下命令安装 Python 驱动模块:

C:\Users\tony>"C:\Program Files\Orange\Scripts\pip.exe" install psycopg2
Collecting psycopg2
  Downloading https://files.pythonhosted.org/packages/1a/85/853f11abfccfd581b099e5ae5f2dd807cc2919745b13d14e565022fd821c/psycopg2-2.8.4-cp37-cp37m-win_amd64.whl (1.1MB)
     |████████████████████████████████| 1.1MB 344kB/s
Installing collected packages: psycopg2
Successfully installed psycopg2-2.8.4

如果提示权限不足,使用管理员权限执行以上命令。

然后点击 SQL Table,在工作区创建一个组件;再创建一个 Data Table 组件,并且将它们进行连接。


双击 SQL Table 组件打开设置窗口。


接下来我们需要设置数据库连接信息:

  1. 选择一个数据库类型,PostgreSQL 或者 SQL Server。
  2. 服务器地址或者主机名;
  3. 数据库的名称;
  4. 用户名;
  5. 密码。

点击“Connect”按钮连接数据库,然后就可以在 Tables 下拉框中选择表或者输入 SQL 语句,这里我们选择了 employees 表(你需要先创建自己的表)。

“Auto-discover categorical variables”选项将不同值少于 20 的 INT 和 CHAR 字段转换为分类变量(如果表中的数据量很大,速度可能会很慢)。如果不勾选,INT 类型将会当作数字处理,CHAR 类型将会当作文本处理。

“Download to local memory” 选项将数据下载到本机。quantile 是一个可选的 PostgreSQL 扩展。

设置完成后,双击 Data Table 组件可以查看表中的数据。

生成数据

除了以上加载数据集的方法之外,Paint Data 组件可以用于在二维平面上手动绘制数据。我们创建以下工作流。


双击打开 Paint Data 组件,通过以下设置和点击操作创建数据集:

  • 定义左表的名称,默认为 x 和 y。
  • 选择一个数据类别创建实例,可以增加更多的类别。如果需要创建不分类别的数据集,只保留一个类别即可。
  • 通过绘图工具创建数据。选择 Brush,按住左键可以一次绘制多个数据实例;选择 Put,每次绘制一个数据实例;点击 Select,可以选择特定的数据实例进行移动或删除;Jitter 可以用于将数据点散开;Magnet 可以将数据点汇聚。
  • Radius、Intensity 分别用于设置以上工具的作用半径和强度,调整绘图效果。
  • Symbol 用于设置绘制的数据点形状大小。
  • Reset to Input Data 用于还原输入数据,手动绘制时无法设置。
  • 最下面的💾可以将绘制的图形保存为图片文件。


Send Automatically 用于自动将绘制的数据同步发送到后续的组件,此时打开 Data Table 可以同步查看数据。

除了以上加载数据的方式之外,一些插件也可以用于导入其他格式的文件。例如 Image Analytics 插件可以导入图像文件。我们在后续使用时再进行介绍。

下一篇我们介绍如何对原始数据进行预处理,欢迎关注❤️、点赞👍、转发📣!


转载:https://blog.csdn.net/horses/article/details/104463771
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场