《Python机器学习实践指南》——1.1 数据科学/机器学习的工作流程

news/2024/7/19 9:13:34 标签: 人工智能, python, 爬虫

本节书摘来异步社区《Python机器学习实践指南》一书中的第1章,第1.1节,作者: 【美】Alexander T. Combs,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.1 数据科学/机器学习的工作流程

打造机器学习的应用程序,与标准的工程范例在许多方面都是类似的,不过有一个非常重要的方法有所不同:需要将数据作为原材料来处理。数据项目成功与否,很大程度上依赖于你所获数据的质量,以及它是如何被处理的。由于数据的使用属于数据科学的领域,理解数据科学的工作流程对于我们也有所帮助:整个过程要按照图1-1中的顺序,完成六个步骤:获取,检查和探索,清理和准备,建模,评估和最后的部署。

在这个过程中,还经常需要绕回到之前的步骤,例如检查和准备数据,或者是评估和建模,但图1-1所示的内容可以描述该过程较高层次的抽象。

c0ab9236c857bb5fc71669f064536a5742f1d2aa

现在让我们详细讨论每一个步骤。

1.1.1 获取

机器学习应用中的数据,可以来自不同的数据源,它可能是通过电子邮件发送的CSV文件,也可能是从服务器中拉取出来的日志,或者它可能需要构建自己的Web爬虫。数据也可能存在不同的格式。在大多数情况下,它是基于文本的数据,但稍后将看到,构建处理图像甚至视频文件的机器学习应用,也是很容易的。不管是什么格式,一旦锁定了某种数据,那么了解该数据中有什么以及没有什么,就变得非常重要了。

1.1.2 检查和探索

一旦获得了数据,下一步就是检查和探索它们。在这个阶段中,主要的目标是合理地检查数据,而实现这一点的最好办法是发现不可能或几乎不可能的事情。举个例子,如果数据具有唯一的标识符,检查是否真的只有一个;如果数据是基于价格的,检查是否总为正数;无论数据是何种类型,检查最极端的情况。它们是否有意义?一个良好的实践是在数据上运行一些简单的统计测试,并将数据可视化。此外,可能还有一些数据是缺失的或不完整的。在本阶段注意到这些是很关键的,因为需要在稍后的清洗和准备阶段中处理它。只有进入模型的数据质量好了,模型的质量才能有保障,所以将这一步做对是非常关键的。

1.1.3 清理和准备

当所有的数据准备就绪,下一步是将它转化为适合于模型使用的格式。这个阶段包括若干过程,例如过滤、聚集、输入和转化。所需的操作类型将很大程度上取决于数据的类型,以及所使用的库和算法的类型。例如,对于基于自然语言的文本,其所需的转换和时间序列数据所需的转换是非常不同的。全书中,我们将会看到一些转换的的例子。

1.1.4 建模

一旦数据的准备完成后,下一阶段就是建模了。在这个阶段中,我们将选择适当的算法,并在数据上训练出一个模型。在这个阶段,有许多最佳实践可以遵循,我们将详细讨论它们,但是基本的步骤包括将数据分割为训练、测试和验证的集合。这种数据的分割可能看上去不合逻辑——尤其是在更多的数据通常会产生更好的模型这种情况下——但正如我们将看到的,这样做可以让我们获得更好的反馈,理解该模型在现实世界中会表现得如何,并避免建模的大忌:过拟合。

1.1.5 评估

一旦模型构建完成并开始进行预测,下一步是了解模型做得有多好。这是评估阶段试图回答的问题。有很多的方式来衡量模型的表现,同样,这在很大程度上依赖于所用数据和模型的类型,不过就整体而言,我们试图回答这样的问题:模型的预测和实际值到底有多接近。有一堆听上去令人混淆的名词,例如根均方误差、欧几里德距离,以及F1得分,但最终,它们还是实际值与预估值之间的距离量度。

1.1.6 部署

一旦模型的表现令人满意,那么下一个步骤就是部署了。根据具体的使用情况,这个阶段可能有不同的形式,但常见的场景包括将其作为另一个大型应用程序中的某个功能特性,一个定制的Web应用程序,甚至只是一个简单的cron作业。


http://www.niftyadmin.cn/n/841074.html

相关文章

MAX7219芯片 共阴LED驱动器 详细介绍

最近从TB买了一大堆各种各样的模块来玩,其中就有用MAX7219芯片来设计的8X8点阵模块,于是去查找了这个芯片的资料,现将学习笔记留下。 目录概述MAX7219简介MAX7219引脚图引脚功能说明MAX7219内部结构MAX7219寄存器译码方式亮度设置扫描界限停机…

Linux 高级Socket编程

设置套接字函数&#xff1a; #include<sys/socket.h>int setsockopt(int sockfd, int level, int optname, const void* optval, socklen_t* optlen);//sockfd要设置的目的套接字 //level套接字的控制层次 //optname optval optlen是三个相关的参数&#xff0c;通过不同的…

浅谈Linux磁盘存储管理

一、 磁盘管理的基本概念linux系统中所有的硬件设备都是通过文件的方式来表现和使用的&#xff0c;我们将这些文件称为设备文件&#xff0c;在Linux下的/dev目录中有大量的设备文件&#xff0c;根据设备文件的不同&#xff0c;又分为字符设备文件和块设备文件。 字符设备文件的…

自己动手构造编译系统:编译、汇编与链接1.3.2 编译

1.3.2 编译 接下来GCC对hello.i进行编译&#xff0c;命令如下&#xff1a; $gcc –S hello.i –o hello.s 编译后产生的汇编文件hello.s内容如下&#xff1a; .file "hello.c" .section .rodata .LC0: .string "Hello World!" …

《Ember.js实战》——第2章 Ember.js风格 2.1 绑定对象

本节书摘来自异步社区《Ember.js实战》一书中的第2章&#xff0c;第2.1节&#xff0c;作者&#xff1a;【挪】Joachim Haagen Skeie&#xff08;乔基姆•哈根•斯基&#xff09;著&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看 第2章 Ember.js风格 本章涵盖…

《移动App测试的22条军规》—App测试综合案例分析23.1节首先需要确定测试微信App需要的设备和版本...

本节书摘来自异步社区《移动App测试的22条军规》一书中的App测试综合案例分析&#xff0c;第23.1节首先需要确定测试微信App需要的设备和版本&#xff0c;作者黄勇&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看。 App测试综合案例分析移动App测试的22条军规…

Java 9正式发布,新特性解读

作者&#xff5c;杨晓峰 编辑&#xff5c;徐川、小智 在历经多次跳票之后&#xff0c;Java 9 终于在千呼万唤中正式发布。从这个版本开始&#xff0c;Java 将每半年发布一个版本。作为霸占编程语言排行榜鳌头多年的老牌语言&#xff0c;Java 9 中有哪些不得不说的新特性&#x…

服务器状态监控之一背景介绍及解决方案建议

SCOM与SCVMM 一、背景介绍 XXX公司是一家外商独资企业&#xff0c;主要致力于高品质零售商用地产的投资、开发和管理&#xff0c;其在国内大部分一线及部分二级城市都有分公司或是连锁购中心&#xff0c;随着公司业务规模的不断壮大增加&#xff0c;公司在IT方面的投入也成正比…