炼数成金 商业智能机器学习
订阅

机器学习

论机器学习领域的内卷:不读PhD,我配不配找工作?
论机器学习领域的内卷:不读PhD,我配不配找工作?
机器学习内卷了吗?「没有博士学位,在机器学习领域就业会变得越来越难吗?」最近,一个 Reddit 热帖引发了大量讨论。对于单个研究者、从业者来说,毫无疑问,机器学习领域确实「卷」起来了。这几年来,仿佛每个人都 ...
每年节省170万美元的文档预览费用,借助机器学习的DropBox有多强​?
每年节省170万美元的文档预览费用,借助机器学习的DropBox有多强​?
最近,Dropbox 优化了生成和缓存文档预览的方式,并借助机器学习的预测能力,每年为公司节省了 170 万美元的基础架构成本。Dropbox 的一些常用功能都采用了机器学习,例如搜索、文件与文件夹提示以及文档扫描 OCR。 ...
【时间序列】DTW算法详解
【时间序列】DTW算法详解
在时间序列数据中,一个常见的任务是比较两个序列的相似度,作为分类或聚类任务的基础。那么,时间序列的相似度应该如何计算呢?经典的时间序列相似性度量方法总体被分为两 类: 锁步度量(lock-step measures) 和弹性 ...
谱聚类(spectral clustering)原理总结
谱聚类(spectral clustering)原理总结
谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问 ...
对比自监督学习浪潮迅猛来袭,你准备好了吗?
对比自监督学习浪潮迅猛来袭,你准备好了吗?
近年来,自监督学习逐渐成为了备受人们关注的应对标注缺乏问题的热门解决方案,科研人员在基于对比学习的自监督方法方面进行了大量研究。本文是 PyTorch Lightning 创始人 William Falcon 的对比学习综述,对自监督 ...
Uber正式开源分布式机器学习平台:Fiber
Uber正式开源分布式机器学习平台:Fiber
在过去的几年中,计算机不断增强的处理能力推动了机器学习的进步。算法越来越多地利用并行性,并依赖分布式训练来处理大量数据。然而,随之而来的是增加数据和训练的需求,这对管理和利用大规模计算资源的软件提出了 ...
彻底搞懂机器学习中的正则化
彻底搞懂机器学习中的正则化
在总结正则化(Regularization)之前,我们先谈一谈正则化是什么,为什么要正则化。其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防 ...
CRF用过了,不妨再了解下更快的MEMM?
CRF用过了,不妨再了解下更快的MEMM?
HMM、MEMM、CRF被称为是三大经典概率图模型,在深度学习之前的机器学习时代,它们被广泛用于各种序列标注相关的任务中。一个有趣的现象是,到了深度学习时代,HMM和MEMM似乎都“没落”了,舞台上就只留下CRF。相信做 ...
将“softmax+交叉熵”推广到多标签分类问题
将“softmax+交叉熵”推广到多标签分类问题
一般来说,在处理常规的多分类问题时,我们会在模型的最后用一个全连接层输出每个类的分数,然后用softmax激活并用交叉熵作为损失函数。在这篇文章里,我们尝试将“softmax+交叉熵”方案推广到多标签分类场景,希望 ...
准确率、精准率、召回率、F1,我们真了解这些评价指标的意义吗?
准确率、精准率、召回率、F1,我们真了解这些评价指标的意义吗?
众所周知,机器学习分类模型常用评价指标有Accuracy, Precision, Recall和F1-score,而回归模型最常用指标有MAE和RMSE。但是我们真正了解这些评价指标的意义吗?在具体场景(如不均衡多分类)中到底应该以哪种指标为 ...
打开AI的黑盒子:模型可解释性的现状、应用前景与挑战
打开AI的黑盒子:模型可解释性的现状、应用前景与挑战
无论在学术界还是工业界,模型可解释性目前都还是一个相当新的领域。我们会在这次分享中用综述的形式对模型可解释性做一个总体介绍,帮助大家了解什么是模型的可解释性,以及它诞生的背景是什么样的,我们为什么需要 ...
AutoML-调参迈入蒸汽时代
AutoML-调参迈入蒸汽时代
抽象,再抽象。 AutoML体验有感。抽象这个词我真的是越来越喜欢了。小时候把看不懂的文字或者画叫抽象,虽然那些东西我现在依然不懂,但是现在对于抽象这两个字多少有点认识。本科的时候老师说“数学是自然科学的抽 ...
周志华:Boosting学习理论的探索 —— 一个跨越30年的故事
周志华:Boosting学习理论的探索 —— 一个跨越30年的故事
AdaBoost的算法流程非常简单,用夏柏尔自己的话说,它仅需“十来行代码(just 10 lines of code)”。但这个算法非常有效,并且经修改推广能应用于诸多类型的任务。例如,在人脸识别领域被誉为“第一个实时人脸检测器 ...
机器学习所需的工程量未来会大大减少
机器学习所需的工程量未来会大大减少
构建一个有用的机器学习产品需要创建大量的工程组件,其中只有一小部分涉及 ML 代码。构建生产级 ML 系统涉及到很多工作,比如构建数据管道、配置云资源和管理服务基础设施。传统上,ML 的研究主要集中于创建更好的 ...
机器学习研究者的养成指南,吴恩达建议这么读论文
机器学习研究者的养成指南,吴恩达建议这么读论文
如何成为一名高效的机器学习研究者,然后在这个领域取得一些成就?在此之前,我们需要养成什么样的习惯?近日,一位网友在 Reddit 上发帖提问:「那些高效的机器学习研究者,都有什么样的习惯?」比如,在 Arxiv 上 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2021-4-18 11:34 , Processed in 0.136012 second(s), 16 queries .