训练分类器

以下是资料介绍,如需要完整的请充值下载. 本资料已审核过,确保内容和网页里介绍一致.  
无需注册登录,支付后按照提示操作即可获取该资料.
资料介绍:

训练分类器(中文4500字,英文PDF)

本章探讨分类的第一阶段:模型训练。开发分类器是个动态的过程,要求你创造性地思考出描述数据特征的最佳方式,并考虑在训练模型中所选用的学习算法中如何使用这些数据特征。某些数据很容易就可以为分类所用,而有些则会给分类工作带来很大挑战,让你同时感受到沮丧、有趣和物有所值。
在本章中,你将学会挑选并有效地提取各种特征以构建Mahout分类器。特征提取所涉及的工作比第13章介绍的简化步骤多得多。我们将详细探讨特征提取,包括如何对原始数据进行预处理,将其变成可分类数据,以及如何将可分类数据变成适用于Mahout分类算法的向量。我们将以一个计算营销问题为例,演示如何从数据库中提取训练数据。
一旦理解如何为分类准备数据之后,我们将在14.4节给出一个示例,该示例利用Mahout中的随机梯度下降(SGD)算法在一个标准数据集20 Newsgroup上构建分类器。