TY - Jour A2 - García-díaz,维森特·奥兹,韩奥 - 王,宏宇·奥 - 金,Dawei Py - 2018DA - 2018/12/18 TI - 基于主动学习SP的低成本命名实体识别研究- 1890683 VL - 2018年AB - 命名实体识别(NER)是许多自然语言处理技术的不可或缺的和非常重要的一部分,例如信息提取,信息检索和智能Q&A.本文介绍了AL-的发展CRF模型,这是基于主动学习(AL)的新方法。由AL-CRF模型执行的进程的算法序列如下:首先,使用该样本使用 K.- eans方法。然后,对所产生的群集执行分层采样,以获得初始样本,用于训练基本条件随机场(CRF)分类器。下一步包括启动使用熵的标准的选择过程。更具体地,将具有最高熵值的样本添加到训练集中。然后,重复学习过程,并且基于所获得的训练集再培训CRF分类器。学习和Al的选择过程迭代地运行,直到谐波平均f稳定并且获得最终的NER模型。在立法和医疗案例上进行几个实验,以验证AL-CRF性能。测试数据包括中国司法文件和中国电子医疗记录(EMRS)。测试表明,与传统CRF模型相比,我们所提出的算法具有更好的识别精度和召回速率。此外,我们的方法的主要优点是它需要较少的手动标记的训练样本,同时,它更有效。 This can result in a more cost effective and more reliable process. SN - 1058-9244 UR - https://doi.org/10.1155/2018/1890683 DO - 10.1155/2018/1890683 JF - Scientific Programming PB - Hindawi KW - ER -