笔趣笔

手机浏览器扫描二维码访问

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
醉神话

醉神话

附:【本作品来自互联网,本人不做任何负责】内容版权归作者所有!=================书名:醉神话作者:紫苏落葵==================起点VIP2013-08-13正文完结总点击:447114总推荐:33084文案家庭遇变故,职场遭暗算。周洛冰在事隔三年后,再度回归游戏。这次,她要以游戏为突破口,走出一片新天地。只是面对不断更新的版本,在三天不上线,就隔一...

《甄嬛传》

《甄嬛传》

《《甄嬛传》》《甄嬛传》小说全文番外_笑道一笑《甄嬛传》,声明:本书为奇书网(qishu99)的用户自网络收集整理制作,仅供预览交流学习使用,版权归原作者和出版社所有,如果喜欢,请支持正版,以下作品内容之版权与本站无任何关系。---------------------------用户上传之内容开始--------------------------------《甄?执?》作者:流潋紫声明:本书内容为书...

樱笋年光

樱笋年光

我就爱看观音。 弹琵琶的直球酷哥攻x装温柔的美貌阴狠受(攻just话少长得酷的帅比 梁阁x祝余 *“樱笋年光”,出自“樱笋年光,饧箫节候”,意为阳春三月。 *“我从此不敢看观音”,出自黄梅戏版《梁祝》唱词。 1、受控攻控别来!阿弥陀佛! 2、美貌直男受直掰弯攻追受 3、慢热校园日常,不要站任何副cp 4、早恋文,本质玛丽苏(前面是小清新玛丽苏,后面十几章是狗血玛丽苏) 6、全员帅哥美女 !!一切学习、竞赛相关皆为作者乱写,做不得真!!...

师姐,我快突破了

师姐,我快突破了

来自一个小山村的龙炎,竟然拥有美丽动人的师姐,获得至宝之后,进入都市,闹得满城风雨,玩虐各大家族,暴打各大豪门。最终他究竟还要达到何等高度?踏入何等未知样的新世纪?......

ra3之异世冒险

ra3之异世冒险

简介太花里胡哨没什么用,我就直说吧!这是一个普通现代人带着红警3系统到魔幻世界的故事。......

白玫瑰

白玫瑰

《白玫瑰》白玫瑰小说全文番外_周也齐李思曼白玫瑰,  沉香屑作者:汤七鱼文案:网传elio是个怪咖。网友但闻其歌,不知其人。只知他身份神秘,音乐天赋异禀,他所谱的曲几乎首首登金榜,却从不活跃在大众视野里。热心网友爆料elio本人很年轻,贼帅,有钱世家子弟,是某跨国制药集团二公子,该制药集团在国内外鼎鼎有名。...