浅谈机器学习技术中的随机森林算法

本次主题是随机森林,杰里米(讲师)提供了一些基本信息以及使用jupyter notebook的提示和技巧。
jeremy谈到的一些重要的事情是,数据科学并不等同于软件工程。 在数据科学中,我们做的是设计模型。 虽然软件工程有自己的一套实践,但数据科学也有自己的一套最佳实践。
模型构建和原型设计需要一个交互的环境,是一个迭代的过程。 我们建立一个模型。 然后,我们采取措施来改善它。 重复直到我们对结果满意为止。
随机森林
我听说过“随机森林”这个词,我知道它是现有的机器学习技术之一,但是老实说,我从来没有想过要去了解它。 我一直热衷于更多地了解深度学习技术。
从这次演讲中,我了解到随机森林确实很棒。
它就像一个通用的机器学习技术,既可以用于回归,也可以用于分类。 这意味着你可以使用随机森林来预测股票价格以及对给定的医疗数据样本进行分类。
一般来说,随机森林模型不会过拟合,即使它会,它也很容易阻止过拟合。
对于随机森林模型,不需要单独的验证集。
随机森林只有一些统计假设。 它也不假设你的数据是正态分布的,也不假设这些关系是线性的。
它只需要很少的特征工程。
因此,如果你是机器学习的新手,它可以是一个很好的起点。
其他概念
维数诅咒是一个概念,意思是你拥有的数据特征越多,数据点就会越分散。 这意味着两点之间的距离没有意义。
jeremy确信,在实践中,情况并非如此,事实上,你的数据拥有的特征越多,对模型的训练效果就越好。
没有免费午餐定理是这样一个概念:没有一个模型可以完美地适用于任何类型的数据。
技巧和窍门
你可以在jupyter notebook中使用!来执行bash命令,例如。
!ls
!mkdir new_dr
在python 3.6中追加字符串的新方法。
name = ‘sabina’
print(f‘hello {name}’)no_of_new_msg = 11
print(f‘hello {name}, you have {no_of_new_msg} new messages’)
不需要离开jupyter notebook就可以查看python函数。在函数名前使用?获取它的文档。
from sklearn.ensemble import randomforestclassifier?randomforestclassifier.fit()
如果你想阅读源代码,可以使用??在函数名称前。
from sklearn.ensemble import randomforestclassifier??randomforestclassifier.fit()
通过使用to_feather方法保存处理过的数据集,将数据集以存储在ram中的相同格式保存到磁盘。可以使用read_feather方法从保存的文件中读取数据。注意,为了使用这些方法,你需要安feather-format库。
import pandasdf = pd.dataframe()
df.to_feather(‘filename’)saved_df= pd.read_feather(‘filename’)

欧盟计划采取更严格措施阻止外国公司收购欧洲企业的知识产权
新火种AI | 商汤汤晓鸥猝然离世!中国AI领域的损失比想象中更多
直流系统接地故障测试仪
美国再次针对华为,警告巴西不要使用华为5G设备
手动变速器常见的故障
浅谈机器学习技术中的随机森林算法
壳牌认为区块链技术有潜力帮助企业从集中化过渡到分散化
小米的AIoT路由器AX3600拆解 值不值得买?
ADC芯片国产如何突围?
Beats发布新配色 售价2789元
基于霓虹灯串行级联LED选择脉冲频率和宽度实现调节电压
苹果股票犹如过山车,瞬间掉入泥潭!
西门子PLC程序的调试方法介绍
自然语言分析(NLA)是什么
华润微电子与重庆签署协议 将投资约100亿元建设国内首座本土企业的12英寸功率半导体晶圆生产线
智能网联汽车信息安全实训平台之CAN总线的逆向实验
变压器的基本原理及作用说明
三大运营商在5G建网的最新思考以及实践探讨
2020年1-2月份我国移动互联网累计流量达到了235亿GB同比增长44.2%
防洪防汛为什么需要数字对讲机,它有哪些优势