专用通道>

您当前所在位置: 主页 > 行业新闻 > IT技术讨论 >

IT技术讨论

怎样的机器学习才是正确的

发布者:兰州北大青鸟点击:
1.通过系统化流程迭代结果 一旦你会使用工具,那么通过机器学习算法解决问题就相对容易了,你称之为完美。 这就非常危险了。 你怎么知道你已经完美解决问题了呢?你怎么知道这

1.通过系统化流程迭代结果
一旦你会使用工具,那么通过机器学习算法解决问题就相对容易了,你称之为“完美”。
这就非常危险了。
你怎么知道你已经完美解决问题了呢?你怎么知道这个结果是*好的?你怎么就知道这个结果在这个数据集上面是可靠的?
使用机器学习解决相关问题时,你需要系统化。这是一个项目,和软件开发一样,通过良好的处理可以获得高质量的结果,通过不断地迭代得到进一步提升。
仔细思考这样一个系统的流程,你可以想到一些明确的要求,比如:
一个系统的流程可以带你贯穿始终,从特定的问题到结果的呈现或者部署。与软件开发项目一样,你可能认为你已经完成了,但是你很可能没有。
一个系统的流程可以带着你一步一步地完成你的任务,这样你就明确地知道下一步该做什么。不知道下一步该做什么简直就是项目的克星。
一个系统的流程可以保证良好的结果,也就是说这个结果会比一般的好,或者远超项目的需求。在项目中经常要求提交有一定可靠度的结果,而并不一定是那个*好准确度的结果。
一个系统的流程不拘泥于特定的工具、编程语言、算法模型。使用的工具在不断更新,因此这个流程必须具备适应性。考虑到学界对于算法的追求,时常会出现新的,更好的算法。
选择一个系统的、可迭代的流程,从而可以不断地提升你所交付的结果。
有非常多的高质量的系统流程,包括一些比较老的系统流程,你都可以稍加调整使之能够满足你的要求。
2.为你的系统流程选择*佳的工具组合
机器学习的工具和库在不断地更新迭代,但在任何时候你都得选择与所选系统流程*适合的工具组合。
你不用验证和选择任何老的算法或者库,你需要所谓的*好组合,它可以给你快速的、可靠的、高质量的结果,并且能够尽可能地自动进行。
但是,你得根据自己的需要选择工具组合。
比如,对于以上三种场景,我建议使用的工具组合如下所示:
一次性模型:使用Weka平台,可以在很短的时间加载CSV,设计一个实验,并获得*好的模型,并且几乎不同编程(请参考我对这流程的整理)。
嵌入式预测模型:通过python使用Scikit-learn库,我可以使用同样的语言来开发模型。IPython是一个非常好的方式,可以向团队展示你的模型运行情况。MLaaS对于大数据而言是个很好的选择。
深度模型:R语言,在R平台上,我可以快速并且自动地尝试很多*高水平的模型。
实际上,这三种情况下的三种工具组合也要依赖于特定的应用场景。
和软件开发一样,你需要学习如何使用这些工具,从而可以*大程度地利用它们。此外,你也需要随时关注业界的发展,并且使用更好的工具。当更好的工具发布后,你可以不断调整工具来适应你那个系统流程。
3. 有选择性地开放你的项目
软件开发技能是通过开发大量软件产品得到的。对于机器学习,你可以使用类似的方法。
仔细选择练习数据集,你*好选择一个真实的数据集,而不是人为杜撰的数据集。现在外面有大量的各种复杂度的数据集合。
我建议从一些小的数据集开始,可以从UCI机器学习库中获得。它们都非常有名,相对简洁,适合新手学习使用机器学习算法系统流程和相关工具。
之后,非常推荐使用一些更大的数据集,比如Kaggle和KDD比赛提供的数据集。它们相对会有点乱,要求使用更多不同的技能。

北大青鸟咨询老师

北大青鸟兰州校区介绍

北大青鸟兰州校区是北大青鸟总部在甘肃兰州设立的定点校区。涵盖ACCP、Java、.Net、网络营销等多专业校区,承担教学、就业、以及教师培养输送等职责。
北大青鸟作为北京大学下属的专业计算机学校,以北京大学强大师资作为依托,连续11年被评为“中国IT教育优越品牌”,累计培养50+万优秀软件工程师,是名符其实的软件工程师的摇篮……请认准品牌名校——北大青鸟兰州校区,地址:甘肃省兰州市安宁教育港。