药品安全舆情是人民群众最关心、最直接、最现实的利益问题之一, 直接关系到人们的身体健康和生命安全。舆情相关知识的有效表示和组织是当前网络舆情研究和管理的迫切需求。本书重点研究药品安全舆情的结构化语料库, 药品安全舆情的命名实体识别方法, 药品安全舆情的命名实体消岐模型和算法, 药品安全舆情的实体对齐模型和算法, 药品安全舆情的实体关系抽取方法, 药品安全舆情的事件知识图谱系统设计与实现, 为药品安全舆情监测、主题发现、热点追踪和辅助舆情引导等精细化管理提供技术支持。
随着互联网的广泛使用,越来越多的网民依赖网络获取有关此类事件的信息,并且互联网的舆论在事件的发展过程中变得越来越重要。为一步提高药品,维护人民的健康权,医药工业的持续健康发展,从舆论监督的角度研究国内外药品的发展具有十分重要的意义。
所谓语料库是指出于某些应用目的从各个方面收集的,具有规模和结构,并且可以被计算机识别的原始语料库的集合。语料库的初始构建是基于手动分类的,这种方法不仅耗时长,而且成本很高[B-4]。当今随着网络技术的飞速发展,Web数据挖掘技术为构建语料库提供了很好台,来自网络的大量数据不仅可以提供丰富的语料库来源,还可以不断更新语料库的构建[5]。
1.1.2研究现状和发展趋势
pan style="font-family: 宋体;">研究资料与方法
(pan style="font-family: 宋体;">)数据来源。本章的数据来自KI期刊数据库。召回条件:主题标题=“舆情”或“构建语料库”,请参阅来源类别中的热门期刊。搜索时间范围是03年pan>月25日到2pan>年pan>月15日,搜索日期是2pan>年3月2日。共获得489篇样本。
将CiteSpace5.7.R2软件的数据转换和分析周期设置为03一2pan>年,将时间设置为pan>年,并根据节点的不同类型设置其他参数。通过Excel分析文献量的变化趋势,并使用CiteSpace可视化和分析不同维度,例如研究作者、研究机构和关键词共现。本章采用文献计量法,使用CiteSpace信息可视化软件对获得的文行可视化分析和解释,然后通过对文献的深入阅读,对我国OBE的关键研究和发展趋行分类[6。
(2)研究过程。本研究将从知网获得的489篇文献以Refworks格式下载,并转化成CiteSpace能够识别的WOS格行导入,将时间跨度设置为03—2pan>年。同时,能界面的节点类型区域依次选择主题(Term)、关键词(Keyword)和类别(Category)按钮,采用“路径搜索算法(Pathfinder)”运行程序,终对获得的网络知识图行分析[7]。
(3)参数设置。设置软件的时间为03-2pan>年,时间切片为pan>年,节点分别设置为作者、机构、关键词,依行合作网络分析和共现聚类分析,作者与机构TopN阈值设为100,行修剪,关键词TopN阈值设为50,修剪方式为Pathfinder。
2.研究概况
(pan style="font-family: 宋体;">)年度发文量分析
年度出版物的数量和变化趋势有助于我们了解这一研究领域的重要和。如图1-pan style="font-family: 宋体;">所示是对语料库研究的文献年度数行的统计分析,在程度上可以反映出该领域的研究趋势。从增长速度可以看出,03一14年是该研究的辉煌时期,研究数量飞速激增,14-17年该研究呈缓慢增长趋势,17-2pan>年发表量呈下降趋势。
基于知识图谱可视化分析,本章将语料库研究分为初始期(03一14年)、发展期(14-17年)和深化期(17-2pan>年)三个阶段,从文献规模、学术社群以及热点主题等方面全程分析药品舆情的语料库研究的历程。
(2)作者分析
在CiteSpace分析工具的节点类型中选择“Author”,TopN设定为500,TopN%设定为100,(c,cc,ccv)设定为(pan>,pan>,),其他使用默认参数(样本量为504篇)。依据文献计量学中学者普赖斯(Priced)所提出的计算公行统计[8]。本研究发文多的是现南京师范大学的曲维光教授,发文量22篇。经计算,发文量达4篇及4篇以上可视为核心作者。表1-pan>所示为该主题的核心发文作者。