手机浏览器扫描二维码访问
巧妇难为无米之炊,数据就是机器学习的“米”。
- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。
- 数据预处理:这步特别关键,就像淘米要去沙。包括:
- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。
- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。
- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。
2. 特征工程:给数据“化妆”,让模型看得更清楚
“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。
- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。
- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。
3. 模型训练:让机器“刷题涨本事”
选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。
- 训练过程中,得注意过拟合和欠拟合:
- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。
- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。
解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。
4. 模型评估:给机器“考试”打分
训练好的模型得测试一下准不准。常用的指标有:
- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。
林寒,一个年轻的护林员,偶然间获得了与地球意志沟通的能力。从此,他受雇于地球,作为地球意志的唯一代理人,为了全世界的环保大业而不懈奋斗。他可以提供最精确的天气...
一个华国普通人,穿越到米国,发现自己成为了一个被米国通缉的菜鸡杀手。还好他得到了穿越者福利,签到系统。......
《嘉嘉》作者:贺周周,已完结。兰又嘉在二十二岁这年,忽然发觉这世上竟有很多人爱他,更有人盼着他回头、求着他原谅。原来昔日高高在上的恋人爱他…...
夺宋:水浒也称王情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的历史军事小说,夺宋:水浒也称王-万人丛中一回首-小说旗免费提供夺宋:水浒也称王最新清爽干净的文字章节在线阅读和TXT下载。...
古宅秘事一共四卷情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的其他类型小说,古宅秘事一共四卷-午餐金猪-小说旗免费提供古宅秘事一共四卷最新清爽干净的文字章节在线阅读和TXT下载。...
“男,三十岁,相貌英俊,身高180。美国常春藤名校毕业,金融硕士学历,海归精英,年薪百万,有房有车,无贷款。现征求同性友人,要求:年龄相近,五官端正,大学本科学历及以上,有正当稳定职业,事业单位、公务员为佳,个性温和,最好会做饭。有意者请联系1520501XXXX,异性勿扰。” 这熟悉的小传单风格,这工厂流水线般的履历,仿佛不是常春藤毕业,他都不好意思出来当骗子。 贺睿峰:“……妈,这张小传单哪来的?” 他妈:人民公园相亲角 贺睿峰:…… 贺睿峰:百分百骗子,你别联系。 他妈:晚了 贺睿峰:…… CP:贺睿峰X邓成宁 体育老师攻X金融精英受 注: 1.受有点疯批 2.攻有前女友(假的),前男友(真的,文章开始已分手),无情感纠葛,1v1,箭头很粗 3.非同性可婚背景...