炼数成金 门户 商业智能 机器学习 查看内容

CRF用过了,不妨再了解下更快的MEMM?

2020-6-23 10:22| 发布者: 炼数成金_小数| 查看: 8326| 评论: 0|原作者: 苏剑林|来自: 科学空间

摘要: HMM、MEMM、CRF被称为是三大经典概率图模型,在深度学习之前的机器学习时代,它们被广泛用于各种序列标注相关的任务中。一个有趣的现象是,到了深度学习时代,HMM和MEMM似乎都“没落”了,舞台上就只留下CRF。相信做 ...
HMM、MEMM、CRF被称为是三大经典概率图模型,在深度学习之前的机器学习时代,它们被广泛用于各种序列标注相关的任务中。一个有趣的现象是,到了深度学习时代,HMM和MEMM似乎都“没落”了,舞台上就只留下CRF。相信做NLP的读者朋友们就算没亲自做过也会听说过BiLSTM+CRF做中文分词、命名实体识别等任务,却几乎没有听说过BiLSTM+HMM、BiLSTM+MEMM的,这是为什么呢?

今天就让我们来学习一番MEMM,并且通过与CRF的对比,来让我们更深刻地理解概率图模型的思想与设计。

模型推导
MEMM全称Maximum Entropy Markov Model,中文名可译为“较大熵马尔可夫模型”。不得不说,这个名字可能会吓退80%的初学者:较大熵还没搞懂,马尔可夫也不认识,这两个合起来怕不是天书?而事实上,不管是MEMM还是CRF,它们的模型都远比它们的名字来得简单,它们的概念和设计都非常朴素自然,并不难理解。

回顾CRF
作为对比,我们还是来回顾一下CRF。说是“回顾”,是因为笔者之前已经撰文介绍过CRF了,如果对CRF还不是很了解的读者,可以先去阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。简单起见,本文介绍的CRF和MEMM都是最简单的“线性链”版本。

如果仅局限于概念的话,那么CRF的介绍到此就结束了。总的来说,就是将目标序列当成一个整体,先给目标设计一个打分函数,然后对打分函数进行整体的softmax,这个建模理念跟普通的分类问题是一致的。CRF的困难之处在于代码实现,因为上式的分母项包含了所有路径的求和,这并不是一件容易的事情,但在概念理解上,笔者相信并没有什么特别困难之处。

声明:文章收集于网络,版权归原作者所有,为传播信息而发,如有侵权,请联系小编删除,谢谢!

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括:各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2020-7-5 06:28 , Processed in 0.168878 second(s), 25 queries .