NMPA推进真实世界研究，临床大数据在药企如何应用和变现？

图片来源@unsplash

文｜微信公众号动脉网（ID：vcbeat）

1月7日，国家药监局发布了2020年的1号文《真实世界证据支持药物研发与审评的指导原则（试行）》，旨在厘清药物研发和监管决策中真实世界证据的相关定义，指导真实世界数据收集以及适用性评估，为医药界和监管部门利用真实世界证据支持药物研发和监管决策提供参考意见。

真实世界研究是指针对预设的临床问题，在真实世界环境下收集与研究对象健康有关的数据（真实世界数据）或基于这些数据衍生的汇总数据，通过分析，获得药物的使用情况及潜在获益-风险的临床证据（真实世界证据）的研究过程。

当前，临床大数据和真实世界研究非常火热，但实际情况中，却存在商业模式不清晰、盈利困难的情况。

随着一系列改革措施推进落实，药物研发快速发展，新药加速上市，同时对药物研发工作的质量和效率提出了更高的要求。

接下来，我们将探讨药企对于临床大数据的应用和变现情况，以及真实世界研究的应用场景。

临床大数据与药物数据或健康数据不同，临床数据的获取具有极高的门槛，从这个角度来讲数据本身就具有较高价值。换句话说，谁拥有了数据谁就拥有了发展临床数据应用的绝对主动权。当前临床大数据主要服务于政府、药企、医院、保险四个类别。

这四个类别用户相对典型，本文仅以讨论临床大数据在药企的应用和变现模式。当然这四个类别也经常联动，例如药企-医院，就是一对典型的联动体系，临床大数据同时服务于药企与医院才能构成完整的商业模式。

药企是临床大数据重要的服务对象，对于药企而言无非是两个方面的应用场景。其一是有利于药品研发；其二是有利于药品营销。药企相对资金比较雄厚，对上述两个方面有价值的临床大数据产品或服务，企业则有兴趣推进。

临床大数据的服务也围绕着药品研发与药品营销两个方面展开。

药物研发阶段可做的工作很多。首先药物研发分为临床前阶段、临床阶段、上市阶段。本文只讨论临床大数据的应用，所以临床前阶段不在讨论范围之内。对于临床阶段而言，由于该阶段的大量研究属于前瞻性研究，数据需要基于试验设计进行入组采集分析。

在临床阶段，已有的临床数据对于前瞻性研究利用价值有限，但通过已有数据寻找患者入组的确是非常有效的。其次，通过临床数据是确定药物立项的有力证据。包括是否需要开展新药研发立项，是否对新品种进行引入（Licence In）等。

药物营销阶段，临床数据有充分的用武之地，包括药物上市后评价、真实世界研究、营销知识图谱、健康监控与随访等。例如通过真实世界研究得到某款药物的有力证据，不但可以公开发表，甚至可以写入该药物的说明书中。这些对于药企营销具有莫大的好处。

一、药物研发

药物研发分为两个过程，药物临床前研究与药物临床研究，如下图所示。对于临床前研究，主要是处于实验室阶段，临床数据能够发挥的余地很小。在新药临床阶段，主要以前瞻性研究为主，即为了完成一个临床终点而招募一批患者进行入组实验。

在药物临床实验中，所有的数据基本都是新产生的，这样我们已有的临床数据对于新药临床实验本身并没有太大价值。但是，对于临床实验而言，入组人群往往具有较高要求，临床数据可以帮助研究机构寻找合适的入组受试者。

临床试验入组

临床试验入组有多重方式，当前主要的方式有以下几种：

（1）确保受试者符合伦理已批准的最新方案所规定的所有入选标准，且不符合任何一项排除标准；（2）招募广告：可以通过张贴已获得伦理委员会书面批准的招募广告；（3）对所有就诊患者进行普遍筛选；（4）在门诊等待合格受试者前来就诊；（5）建立专科、专病门诊。

这些方式总体来讲是一种招募行为，缺乏精准性，效率也较低。通过临床数据可以较为精准的检索到患者的相关信息，可以提高招募受试者的效率。但是由于我国电子病历数据互通性很差，区域内很难进行电子病历的融合，在规范用语方面也很难统一，使得数据零散难以检索。

二、药物营销

1.真实世界研究

药物上市后，最重要的问题就是药品营销。药物上市后临床研究，以及真实世界研究对药企的最大利益，就是能够促进该类产品在市场中的地位。

所有药企的研究方向一定是希望获得自身有利的结果，如果得到不利证据也会积极调整公司策略，尽可能的避免损失。所以从药企利益的方面考虑，将这部分内容放在药物营销中进行讨论。

不过真实世界研究并不是只针对药物，在医疗费用控制、医疗质量方面也有相应的研究路径。但是为什么当前会有这么多与药品有关的真实世界研究？

原因很简单，有商业模式的研究工作才是一个稳定的模式。由于与药品相关的研究与药企商业利益直接相关，这些研究费用会被药企买单。如此这般，当前市场上有关真实世界研究的项目大多与药品相关。

真实世界研究还有一个大方向是医疗费用控制，当前医保压力很多，所以国家也在医保控费方面投入了大量研究金费。不过在医保控费方面，真实世界研究并没有与商保企业产生相对明确的商业模式，所以自然研究的场景没有药品丰富。临床大数据与保险有关的内容将在未来的文章中进行讨论。

所谓真实世界研究，学术界有两种不同的划分方法。

第一种意见认为所有回顾性研究都属于真实世界研究，简而言之就是对所有真实医疗或医疗周边产业产生的数据的研究，都属于真实世界研究。这些数据是在诊疗过程中自然产生的，而不是通过人为设计某种实验而得到的。

第二种意见认为真实世界研究是所有传统临床医学研究之外的部分。传统医学研究是随机对照实验、队列研究、病例对照研究、横断面研究等教科书里传统临床研究类型之外的研究。

针对上述两个学术界的看法，笔者更倾向于第一种看法。在笔者看来，真实世界研究的本质是数据的来源问题。经过严格的实验对象筛选获得的数据（例如传统临床实验），则不能称为真实世界研究。只有在非刻意性的基础上获得数据，才能称为真实世界研究。

所以真实世界研究没有研究对象的评选标准，所有数据完全是在现实中产生。在FDA的指南中，对“真实世界数据”的定义强调了两个点：定期收集（routinely collected），数据来源多样（from a variety of sources）。

（1）优效、等效、非劣效研究

药物疗效验证是药企最感兴趣的项目之一，为了验证自己的药物在医疗环境中的地位，药企愿意投入大量资源开展真实世界研究工作。所谓优效性试验是为了验证药物是否优于另外一种药物；等效性试验，即检验一种药物是否与另一种药物具有相同的疗效；非劣效试验，即验证一种药物不差于另外一种。

药物优效、等效、非劣效研究属于传统研究范畴，可以通过试验设计进行试验。不过从本质上而言，该实验更适用于真实世界研究。只有在实际诊疗中产生的数据才能较好的做出客观评价。

通常来讲，进行该类试验应该选取一款市场上广泛认可的药物作为阳性对照药，通过与该药物的对比，得到优效、等效、非劣效的相关结果。由于被选中阳性对照的药品，通常都是较强的竞争对手，所有企业自然希望得到优效的结果。

对于优效性试验而言，其假设检验为：

原假设

备择假设

其中δ是一个临床具有意义的数值，称为优效性界值。πT为测试药物的总体有效率，πC为对照药物的总体有效率。优效性的主要目的就是需要确定测试药物疗效需要超过对照药物的优效性界值，且不能低于0点。

对于等效性试验而言，其假设检验为：

原假设

备择假设

公式中的相关指标与前文中的一致。在等效性实验中，需要测试药物与对照药物的有效性在一个界值中间，即可从统计学上判断两者的等效性。等效性更多的用于仿制药与原研药物的一致性评价中。

对于非劣效试验而言，其假设检验为：

原假设

备择假设

非劣效实验重点在于确定测试药物与对照药物的疗效之差不低于下届，单侧检验就可以确定非劣效。下图很形象的说明了三种实验的关系。如果测试药物的疗效低于对照药物疗效的下线界值，那么则无法得出结论。

在传统的生物统计中，以上三种试验可以通过人为设计、招募受试者等方式完成。对于真实世界研究，我们需要完全采用真实产生的数据而并非利用人为设计试验数据。

完成以上工作有两个难点：第一是如何选择数据，第二是如何制定临床指标δ。

首先讨论如第二个问题，定临床指标δ从来都是一个难题，选大了会使得区间变大使得测试药物优效性可能降低，或达不到等效的药物被判定为等效；如果δ选的较小，则会增加相反概率发生的可能性。具体情况还需要针对药物适应症因素确定。常用的指标有生化指标、生物等效性（EB）等。

第一个问题是如何选择数据，这对于真实世界研究非常重要。选择数据有两种情况，一种是针对于已有的医疗数据进行回顾性研究，另一种情况通过对服用两种药物的人群进行随访获得数据，属于一种前瞻性的研究。

从药企角度出发，通常希望快速得到相应的结论，不但可以解决成本，对药品营销推广也有好处。回顾性研究的问题在于临床数据是已经产生的数据，这些数据质量较差并且获得困难，并不一定能够达到对应的试验目的。

前瞻性研究的问题在于随访时间周期长，花费成本巨大，药企很难长时间支持这样一个只投入无结论的项目。

当前临床数据遇到最大挑战是数据转换（ETL）及合并，也可以说是数据治理的内容。在回顾性的真实世界研究中，什么样的临床数据才是有价值的，我们给出三条建议：

1.明确临床事件的发生顺序；

2.明确患者身份标识；

3.使用统一的编码规范。

明确临床事件的顺序在于确定患者的病程及处理情况，大量临床数据无法得到应用的原因在于无法看到一个患者，在一段时间内的临床处置及相应的结果。临床数据应用，并不一定要求在同一时间段内的患者，但需要明确顺序因素与时间间隔。

明确患者身份标识，这一点很好理解。我们做真实世界研究大多数以患者为单位进行，即使研究某个药物或疗法，也需要根据患者个体进行分析。

使用统一的临床编码规范，这是医疗大数据应用中老生常谈的问题。在这里不进行过多的讨论，希望各家医院能够尽量遵守。上述三个基本要求如图所示。

对于真实世界的研究结论，良好的结论药企可以写入自己的说明书中，不利的结论企业应该立刻调整自己的市场布局，躲避不利因素。

（2）药物不良反应监测与药物警戒

药物不良反应监测更多的是一种责任与义务。在国外很多不良反应监测工作由药企完成，在国内更多的是由政府及相关部门进行监控。

药物不不良反应监测更多的是一种企业责任，特别是在新药上市之后，可以通过不良反应监测根据完善药品说明书，让用药更加安全。从药企利益的角度考虑，药企更应该主动进行药物不良反应监测，以降低由于不良反应而产生的高昂赔偿费用。

药物不良反应的发生机理是比较复杂的，归纳可分为甲型和乙型两大类。

前者是由于药物的药理作用增强所致，其特点是可以预测，一般与药物剂量有关，其在人群中的发生率虽高，但死亡率低。后者与正常药理作用完全无关的一种异常反应，通常很难预测，常规毒理学筛选不能发现。

常用的流行病评价方法同样也有回顾性研究与前瞻性研究两种，这两者分别对应了病例对照研究与队列研究。前者是已知发生了某不良反应后，追查由某药物引起的可能性大小；后者是对研究对象追踪随访一段时间，比较暴露于药物的研究对象中不良反应的发生率是否较不暴露于药物的研究对象更高。药物不良反应往往从真实世界数据中发现，通过传统临床试验等方法确认。

药物不良反应与药物警戒在全球已经研究了很多年，不仅提出了多种算法，数据分析种类也由医疗数据分析转向医疗数据、社交数据共同分析的方法。当前大数据、机器学习等多种算法都应用于药物不良反应信号的发现。在药物不良反应与药物警戒中，有两项核心工作：药物不良反应数据库构建和不良反应数据挖掘。

药物不良反应数据库是一个多数据源的数据库，也就是说并不只来源于临床中产生的数据，还包括蛋白、靶点等药物数据。当前的不良反应数据大多数以不良反应上报为主，在未来的发展中，可以借助人工智能等技术手段构建疑似不良反应数据库。该数据库直接来自于临床过程产生的数据，将一些临床症状与用药情况叠加进行判定，主动挖掘一些不良反应事件。

药物不良反应算法方面研究也同样非常深入。主要分为三个大类：比例失衡分析算法(DPA)、逻辑回归算法(LRM)、关联规则挖掘算法(ARM)。

在AI与机器学习发展的今天，决策树、聚类、神经网络等算法都会用作药物不良反应的挖掘工作。具体的算法内容本文不进行细节展开。

探索药物不良的试验方法有四种：差异法、协同法、共变法、类比法。这四种方法也可以作为临床数据研究的理论依据。

差异法就是从相同中寻找不同的因素，这种不同的因素就有可能是引起医学事件的原因。例如有一人群患有心律失常，当应用传统的抗心律失常药物无效时，停药后又改用胺碘酮，结果有部分患者不仅原有的心律失常未得到控制，却又发生了扭转性室速。

同属一组人群，在使用胺碘酮前和后可找出的不同因素正是胺碘酮，因此，可以假设胺碘酮会引起扭转性室速。据此，便可再作进一步的分析性研究。

协同法适用于在不同的时间、不同的空间或不同人口统计学的人群中的某些人出现了同一种医学事件，就可以采用这一方法提出假设。例如调查食物中毒就可以使用这种方法。

共变法适用于某种医学事件的发生频率，随着某种客观因素的数量变动成正比地相应变动，这种数量变动的客观因素就可能是引起医学事件的原因。轰动全世界的“反应停事件”就是通过这一方法提出假设的，研究者们巧妙地将相关年代反应停的市场销售信息与医学事件联系起来，绘出一个销售总量与病例数的时间分布曲线图。

类比法是把原因不明的医学事件和另一已十分清楚的客观因素进行比较，如有相似之处，说明这种客观因素可能就是引起医学事件的原因。例如瑞氏综合征（Reye’s syndrome）的研究中，有人发现水杨酸中毒的临床和组织学改变很类似该综合征，于是通过逻辑推理提出了假设。

药企可以借助临床数据对药物不良反应进行主动性研究。首先确定使用本公司某种药物的相关人群。对于人群中发生的任何相关的临床现象进行聚类，按照诊疗的事件数据进行分。

药物不良反应的研究成果，一般以平台或系统形式呈现。该平台可以进行不良事件检索、不良事件相关药物检索以及相关的不良事件组合检索。

2.药物情报知识图谱

药物营销之前依靠医药代表，现在各个医院对医药代表管理严格，各大药企的药物推广更多的变更为专家型营销方式，通过对医生、患者的教育，使他们了解自己公司的产品，以知识的方式传递营销思路。

现在的医药代表往往会手持一个pad，里面有药物的所有资料以及相关的临床证据，甚至是一些医药有关的问答系统。这样一个医药知识的检索平台或者说问答系统就可以利用知识图谱技术进行构建。

针对药企而言，在营销方面医疗知识图谱可以说是一个最直接的应用，针对药物临床、临床前的学术检索，也是知识图谱的一大应用场景。

医学知识图谱构建技术归纳为五部分，即医学知识的表示、抽取、融合、推理以及质量评估。通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素，选择合理高效的方式存入知识库。医学知识融合对医学知识库内容进行消歧和链接，增强知识库内部的逻辑性和表达能力，并通过人工或自动的方式为医学知识图谱更新旧知识或补充新知识。

知识图谱的数据来源非常多样，临床大数据只是知识图谱数据来源的一个方面，下图就表现了知识图谱数据来源的多样性。

从变现方面来讲，知识图谱更多的是以知识库的形式提供服务，当然可以扩展为问答机器人等业务应用。知识图谱在企业内部可以提高药企的营销水平，协助营销人员更好的推介产品。知识图谱对外是一套知识库体系，可以通过售卖账号获取年费进行变现。

相关文章

相关动态

最新文章