您现在的位置:首页 > >

基于HMM的生物医学命名实体的识别与分类_论文

发布时间:

维普资讯 http://www.cqvip.com ? 4 ? 0  Co u e   a No。 0 mp t r Er   1  20 6 0  基于 H    M的生物医学命名实体的识别与分类  M 陈 锦 ’ ,常致 全 ’ ,许 军  (. 1 四川大学计算机 学院 ,四川 成都 606 ;2 105 .四川财经职业学院)   摘 要 :为 了解决从 ME I E摘要里抽取 出生物医学命名 实体 并加 以归类 ,提 出 了一 种基 于隐马 尔可夫模型 ( DLN HMM )   的信 息抽取方 法。结合若干单词特征 , 用语料 库 G NI c ru30 E A op s. 2训 练和 测试后 , 系统的 F值 达到 6 .。 2   6 关键词 :信息抽 取 ;生物 医学命名实体 ;隐马 尔可夫模 型 ;单词特征  0 引 言  随着 生物医学文献的不断增 多 , 我们迫切需 要寻求一 种有  效 的方法能从文 档 中自动 抽取 出有用的信 息n 因此 信息抽取    , 技术在生 物医学领域有极其重要 的应用价值 。 命名实体的识别  与分类是 信息抽取技 术 中重要 的一 步 ,也是 开展如缩 略语消  歧 、 回指等后续工作的前提 。 代词   消息理解 会议( C) MU s 的召开促使了信息抽取技术的发展 。   据此会 议定义 , 在媒体 领域 , 名实体的识别 任 务就 是识别 出 命   人名 、 名 、 地点 公司机构 名等。至 于生物医学领域 , 需要识 别的   是基 因 、 白质 、 蛋 病毒等命 名实体 。近年来 , 越多的人把 命  越来 名实体的识 别应用在生物医学领域I 。但是由于生物医学领域  z   A I ,  二者均具备 L tr nDg s 征 , 可以推断  K 时 由: ee A d it特 ls i 由此 A 1 K 属于蛋白质 类型。   表 l 单词特征  单词特 征  Dii gt mb r Nu e  Grc Letr ek t   e Al p   l Ca s L t rAn Di i   e ̄ s d gt e s L 'ec s   o ̄ r a e , ' 3  4 ap a lh  CB N  T 2 3  kpa ap   举例  【 pn a n O ePr   e Co ̄ rn l e e  Pa Co a a rm   (   )   的特殊性 , 如命名方 式过长 、 命名习惯 随意 、 涌现新 的命名 不断   Ii p nt   Ca I trci e n ea t   v 实体 、 缩略语缩略规则多样化 、 命名实体嵌套存在等, 造成了识  别与分类 困难 , 实验结果都不太令人满意 。 以说 , 可 命名实体的  C nuco  ojntn i ad n  『 yhn H lo  : , Co )   hn 识别与分类 在生物 医学领域要复 杂得 多。   ole   lr 1 So   tp Deem ie   tr n r #   1背 景介 绍  11GE A op s .2语 料 库  .   NIc ru 30 T e a. n h . a  L  ̄ as o C p  Ba tl   c ss h Sg0 p ilCa   kpa  a pC /   M  本文进行的实验采用了 G NA o u3 2 E I cr s. 语料库,它是一  p 0 个人工标注( X 标签标注 ) 用 ML 的大型语料库 , 图 l 如 所示 。包  含共 20 篇 ME LN 02 D IE摘要 ,53 7 606 个词 ,8 3 种命名实体的类  型 , 如 :rt n m l ueo e_ a ,rt n fm l_ rgo p  poe _ oe l,t rn mepoe  a i o_ ru , i c h i y om an i D NA d _ _ 13 HM M  . or _ r in e o 等等。 g   命名实体的识别可 以看 成一个分类问题 , 每个单词均属 于  某一类型 。 近年来 , MM 在语音识别 、 势识别 、 H 手 词性标注 等领  域被 广泛 采 用, 被公 认是性能较 好的统 计模型 , 我们采用  因此 H M 识别与分类不 同的 命名实体 。由于要求每个单 词均 属于  M 某一类型 , 因此需要定义 “o__ a ” n tanme 类型包 含所有背景词 。   我们定义 H MM 的概 念模 型如图 2 示。 所   < e t n e < o s l = I elu i-” e   # rt i moe ue > s ne c > c n  e   t r k 3 s m= G p oen x n e n   lc l   “ Itr u i-< c n > f c n   e = I 3 s m= G# rt i moe ue > nel k 3 /o s < o s Ix ” . “ e ” p oen e n L   lc l“  I- <c n > s e c sv l e p e s d b < o s L 3 ;o s )i x l i y x rs e   y c n     u e  I =a t a e     e l e e ” ci td T c l x v “s m= G# eItp ” a t ae   < c n > a d ” c l y e > ci td T /o s   v n  l < o s Ix “a ua klr c l s m = G# eI y “ at r l ie   c n  e = n t r I i   el e   l e ” “ c l t pe>n u a kl r   _ c l< c n >  u cin t a s t hl c


热文推荐
猜你喜欢
友情链接: 幼儿教育 小学教案 初中教案 高中教案 职业教育 成人教育