国外的物理治疗师很注重通过查阅文献来指导自己的临床实践。在以证据为基础的西方医学,特别强调证据的收集和总结。一个很重要的途径就是通过临床研究,以文献的形式呈现出来。在加拿大物理治疗师的案头,经常会看到一摞一摞打印出来的文献。因此如何查阅文献,如何判定文献的价值,是否能指导临床实践,就是每个物理治疗师的一项重要技能。
今天我们重点介绍:如何查到你想要的文献。我们以查英文文献为例。没办法,这方面毕竟还是人家强。文献的总体质量也是英文高于中文,但无论查阅中文还是英文文献,整体思路和方法都相差不多。
首先,结合自己临床上的需求,问自己一个问题,这个问题符合PICO格式。所谓PICO,就是指:
P-patient,什么样的患者。
I-intervention,针对这样的患者采取怎样的治疗。
C-comparator,和哪种治疗措施作比较。
O-outcome,该治疗措施下有什么样的结果。
然后根据这个问题去PubMed查阅相关文献。
举例:
A 64 year old obese male who has tried many ways to lose weight presents with a newspaper article about ‘fat-blazer’ (chitosan). He asks for your advice.
64岁肥胖男性试过报纸上介绍的很多关于“fat-blazer”(壳聚糖)产品的减肥方法。现在,他征求你的意见。
碰到此类问题,你先采用上述PICO格式。如下:
Population 患者 obese patients(肥胖患者)
Intervention 治疗 chitosan(壳聚糖)
Comparator 对照 placebo(安慰剂)
Outcome 结果 decrease weight(减轻体重)
最后形成一个PICO式问题:In obese patients, does chitosan, compared to a placebo, decrease weight?在肥胖患者中,壳聚糖和安慰剂相比,是否能减轻体重?
好,先来一个视频(视频1),专业人员通过另外一个例子,教你如何在查文献之前,形成自己的专业问题?
视频1 形成PICO
其次,增加搜索范围,进行适当扩展,形成搜索策略,做以下三件事情:
1.在关键词下划线,这些词具有极强的针对性。
2.将重要性按照数字(1-9)排序
3.多想想有哪些替代词汇(比如不同的拼写,缩写等),使用*符号,囊括不同词性或时态等。
经过加工,上述搜索变为
Population 患者 obese OR overweight(2)
Intervention 治疗 chitosan(1)
Comparator 对照 placebo(4)
Outcome 结果 decrease weight OR kilogram*(3)
上述PICO之间再用AND连接。
注意,搜索时,OR表示结果中不是A就是B。而AND表示结果中既包含A又包含B。
此时再来一段视频(视频2),看专业人员如何将确定的搜索词条转为搜索策略。
视频2 形成搜索策略
看完了,是不是感觉不是很难,接下去的最后一步就更容易了。下面这个视频(视频3)一步一步教你如何将搜索策略通过PubMed找到符合你需求的文献。
图3 找到所需文献
到这里为止,哪些文献能帮到你,心里就有个底了。是不是有点马上可以徜徉在知识海洋中的小兴奋。但沮丧的是PubMed只提供摘要,不提供原文。怎样获得原文,那是八仙过海,各显神通。不在本文讨论范围之内了。
现在是不是已经原文在手了,那问题来了,白纸黑字,大家都一样,哪篇值得你去读,哪篇扔一边去呢?接下来将告诉你如何甄别文献的质量和可信度。
医学文献的类型林林总总,但归纳起来就这么几个(图1)
meta-Analysis 荟萃分析
Systematic Review系统性回顾
Practice Guideline临床实践指南
Randomized Controlled Trial随机对照研究
Cohort Study队列研究
Case Control Study病例对照研究
Case Report病例报告
简单的说,越在金字塔顶层,可信度越高,其结果越可在临床复制。今天我们就介绍处于金字塔塔尖的荟萃分析。
图1 不同的文献类型
meta-Analysis 荟萃分析定义
荟萃分析为系统性回顾的一种。从入选的临床研究中,将具有一定相关性的定性和定量研究进行系统性的汇总,并形成一个具统计学效力的单一结论。因为荟萃分析大大增加受试者数量,使得受试者更具多样性以及累积更多结果和疗效,所以,其得出的结论在统计学上的效力强于任何一个单一性研究。
对于系统性回顾,因为已经处于金字塔的塔尖,所以我们的问题就非常直接,那就是:文献中得出的结论是否有效?能否指导临床实践?
让我们一步一步来解释。我们以Stretch for the treatment and prevention of contractures(Review)拉伸对肌肉挛缩的治疗和预防(系统性回顾)为例,怎么得出你自己的结论。
*此文献原文可向老编索取。
首先,就像你查文献时问自己的PICO问题一样,对该文献也以PICO模式归纳一下作者的问题,看作者的思路是否清晰。
该系统性回顾主要针对什么PICO问题? | |
最佳标准是什么? | 在哪里可以找到符合最佳标准的信息? |
应该清晰阐述主要问题。各个要素(例如治疗,诊断和结果等)之间的关系描述简单直接。 | 在标题,摘要或者简介最后的图片中应该清晰的阐明问题。如果你读完这些内容,仍不清楚作者针对什么问题,那么请查找其他文献。 |
This paper: Yes ✔ No Unclear Comment: 该文献作者针对的临床问题非常具体清晰。(图2) |
图2 该文献作者的PICO非常清晰
P(Population or Problem): people with, or at risk of developing, contractures
I(Intervention): Stretch
C(comparator): no stretch
O(Outcome): joint mobility, quality of life, pain, activity limitations, participation restrictions, spasticity and adverse events
对重要的相关性研究,作者是否有遗漏? | |
最佳标准是什么? | 我在哪里可以找到符合标准的信息? |
对相关性研究的搜索应开始于主要的各书目数据库(例如,Medline, Cochrane, EMbase等),但也应该搜索这些相关性研究的参考文献,同时应该联系原作者,特别是要询问一些尚未发表的相关文献情况。作者不应该仅搜索英文文献。作者的搜索策略不仅包含MESH术语,也包含普通词条。 | 在方法中,作者应该描述搜索策略,包括对使用的术语有些较为详细的说明。在结果中,作者应该列出阅读过的文献题目和摘要的数目,以及被排除在外的文献数目和排除的原因。这些信息应该用一张图表或流程图展示。 |
This paper: Yes ✔ No Unclear Comment:对搜索的数据库及文献的来源做详细的阐述(图3) |
图3 数据来源毫不含糊,清楚说明
用于文献选择的入选标准合适吗? | |
最佳标准是什么? | 我在哪里可以找到符合标准的信息? |
系统性回顾中文献入选和排除标准的定义应该清晰明确。符合要求的标准应该包括具体的患者,具体的干预措施和具体的结果。在许多情况下,何种类型的研究设计,也是判断文献入选或排除标准是否符合要求的关键因素。 | 在方法中,应该对文献入选和排除标准有清晰的描述。通常,也会包含研究设计的内容。 |
This paper: Yes ✔ No Unclear Comment: 该文献在方法中对入选标准的描述非常清晰。(图4) |
图4 入选标准的描述清晰,明确
对于作者提出的问题,入选的研究是否足够有效? | |
最佳标准是什么? | 我在哪里可以找到符合标准的信息? |
作者应该说明如何通过一些预先设定的标准(例如随机,双盲和随访的完整性等)来判断所采用文献的质量。 | 在方法中应该描述所引用文献质量的评估标准。在结果中应该提供关于单个研究的文献质量的具体信息。 |
This paper: Yes ✔ No Unclear Comment:详细说明每个研究的入选标准(图5) |
图5 详细列出入选的每个研究的具体信息
各研究之间的结果是否相似? | |
最佳标准是什么? | 我在哪里可以找到符合标准的信息? |
最理想的是,不同研究之间的结果应该是相似或同质的。如果有异质性存在,作者应该评估这种异质性是否具有显著性(用卡方检验)。应该说明造成这些差异的原因。 | 在结果中应该陈述结果是否存在异质性,并讨论异质性存在的原因。森林图应显示对异质性进行卡方检验的结果,并讨论异质性的原因。 |
This paper: Yes ✔ No Unclear Comment:对每个亚组的森林图分析,详细解释各研究之间存在的差异(图6) |
图6 使用经典森林图呈现研究结果
研究结果是什么? 研究结果如何呈现? |
系统性回顾提供一定数量单个研究的数据汇总。如果这些研究的结果相似,那么可以使用荟萃分析(一种统计方法)综合所有单个研究的结果并给出一个总体的概括性评估。荟萃分析会根据单个研究的样本数量给与不同的权重。单个研究的结果应该用标准化的方式进行描述,例如在各组之间使用相对风险,比值比或者平均标准差等专业标准。结果通常用图表的形式展现,例如下面这张森林图。
这张森林图描述了5个评估某假设性治疗对死亡率影响的荟萃分析结果。单个研究用黑色方块表示。平行线(横线)代表估值点以及比值比的95%可信区间。黑色方块的大小反映在单个研究在该荟萃分析中的权重。实心的垂直线代表治疗效果为零,也就是比值比为1。当可信区间包括1时,这表明跟传统方法相比,结果并不具有显著性(p值大于0.05)。因此,黑色方块越偏向左侧,则越有利于该假设性治疗。黑色方块越偏向右侧,则越不利于该假设性治疗。 图表下方的钻石形代表所有5个研究95%可信区间的比值比汇总结果。在这个例子中,表明该治疗方法能够降低34%的死亡率(比值比为 0.66, 95%的可信区间在0.56和0.78之间)。注意,钻石形并不和“效果为零”的垂直线相重叠(其可信区间并不包含1)。所以我们可以确定总体的比值比(OR)达到统计学上的差异。对整体治疗效果的检验也达到统计学差异(p值小于0.0001) 对异质性的说明 异质性可以用“eyeball”检验以及其他正式的统计学检验,例如Cochran Q检验来评估。用“eyeball”检验时,我们试图寻找已具概括性评估的各研究的可信区间的重叠情况。在上述的例子中,垂直的虚线穿过总体比值比并跨过各个研究的平行线,这表明这些研究之间是具有同质性。异质性也可以通过Cochran Q检验来评估。如果Cochran Q检验的结果具有统计学差异,那么各研究之间具有异质性。如果Cochran Q检验没有统计学差异但是Cochran Q和自由度之比大于1,表明之间可能存在异质性。如果Cochran Q检验没有统计学差异但是Cochran Q和自由度之比小于1,表明之间存在异质性的可能性很小。在上面的这个例子中Q/df 的比值 <1 (0.92/4= 0.23)且P值没有显著性差异(0.92),这表明各研究之间无异质性存在。 注意:因为Cochran Q检验对于检查异质性的能力偏弱,故该检验的差异水平经常设为0.1。 |
再回到我们的例子,结论已经非常明显(图7)。正如我们上述分析的那样,这篇系统性回顾科学而又严谨,所以在最后的结论中使用了“sufficiently robust”这样的字眼。他是有强大的底气的。
图7 结论的得出高度可信
通过这一步步的分析,我们认为像这种文章得出的结论是完全可以指导你的临床实践的。
另外,治疗师经常需要进行关节软组织等的特殊检查,常常会问起检查的有效性和特异性。下面我们介绍一下如何通过文献解读某诊断(或检查)方法的有效性或精确性。
我们知道在物理治疗的检查中,Adson检查是针对胸廓出口综合征的一个常用方法。
什么是胸廓出口综合征?
胸廓出口综合征是血管和神经在锁骨和第一肋之间受到挤压而产生的一组症候群。这会造成患者肩颈部的疼痛以及手指的麻木感—节选自美国梅奥诊所。
在Ortho Notes一书中提到该检查的特异性在74%到89%之间(图8)。
图8 adson's test特异性74%-89%之间
那我们通过这一案例,了解一下如何得出这两个结果,对临床有何指导意义。
诊断(或检查)方法的精确度研究
第一步,研究的结论有效吗?该诊断方法在具代表性的某一患者群中(例如该诊断方法将会在临床实践中使用的人群)被评估过了吗? | |
最佳标准是什么? | 我在哪里可以找到符合标准的信息? |
最理想的状态是该诊断方法应该运用于所有谱系患者。包含某疾病的轻度,重度患者及早期,晚期患者。当然如果患者随机入选或者连续入组,那么选择性误差将会最小化。 | 在方法中应该告知患者如何入选,是随机选择还是连续入组。也应该告知患者来自于哪里,他们是否能够代表使用该诊断方法的患者群。 |
不论指数测试结果如何,运用参考标准了吗? | |
最佳标准是什么? | 我在哪里可以找到符合标准的信息? |
最理想的是在研究中的所有患者都运用了指数测试和诊断参照标准。在某些情况下,诊断参照标准具侵入性或者费用昂贵,可能会对相对于参照标准的阴性指数测试结果(这可能会降低患病率)有所保留。也可以使用替代参照标准对患者进行一段长短较为适宜的随访(基于疾病),从而观察是否真的为阴性。 | 在方法中应该指出是否对所有患者都使用诊断参照标准或者对指数测试中阴性的患者是否运用替代参照标准(例如,随访)。 |
在指数测试和恰当的诊断参照标准(金标准)之间运用独立且盲性比较了吗? | |
最佳标准是什么? | 我在哪里可以找到符合标准的信息? |
这里有2个问题。第一,诊断参照标准应该是恰当的。尽可能是接近“真相”的参照标准。有时所谓“恰当的”,可能不是单个的某参照标准,而是一组测试才能证明该疾病的存在。 第二,诊断参照标准和指数测试应该独立且双盲的用于每个患者。那些解读两者中某个结果的人不应该知道另外一个测试的结果。 | 在方法中应该有对所使用的诊断参照标准有具体描述。如果你不确定采用的诊断参照标准是否恰当,那么你需要对该领域的背景情况做些调研。 在方法中应该说明是谁做的这两种方法的测试,他们是否独立执行操作并对另一个测试的结果毫不知晓。 |
第二步,结果是什么?测试方法的特征被呈现了吗? | |
有两种类型的结果经常出现在诊断方法类研究的报告中。一种是测试方法的精确度,这反应在敏感性和特异性上。另一种是在受试者中测试的性能表现究竟如何,这反应在预测值上(也叫做验后概率)。为揭晓这些术语的意义。我们假设在1000位疑似老年痴呆症的患者中进行指数测试和参照标准测试。在这组患者中的老年痴呆患病率为25%。240个受试者在指数测试和参照标准测试中均为阳性。600个受试者在两项测试中均为阴性。第一步先做一个2*2的表格,如下图所示。我们被告知老年痴呆症的患病率为25%,因此我们在最后一行填上1000的25%,即250位应患有该病,而另外750则没有该病。我们也知道在两个测试中的阳性和阴性结果,所以我们将之填入表格中另外两个空格中。 Reference standard +ve -ve Index test +ve 240 -ve 600 250 750 1000 两者相减,我们得出下列数据: Reference standard +ve -ve Index test +ve 240 150 390 -ve 10 600 610 250 750 1000 现在我们开始计算各种测量结果。 | |
测量结果是什么? | 它们都意味着什么? |
敏感性=患病人群中经该诊断方法检测为阳性的比例 | 敏感性告诉我们用该方法识别患病人群的能力。高敏感性意味着不会错过已患病人群。 |
在该例中,敏感性(Sn)=240/250=0.96 | 10位老年痴呆症患者(4%)被错误的诊断为无老年痴呆。这意味着该诊断方法在识别患病人群方面相当不错。 |
特异性(Sp)为未患病人群中经该方法检测结果为阴性的比例 | 特异性告诉我们该方法识别未患病人群的能力。高特异性意味着不会大量的将未患病人群误认为患病人群。 |
在该例中,Sp=600/750=0.8 | 150位未患病人群被认为患有老年痴呆症。这意味着在识别未患病人群方面,该方法只能算中等水平。 |
Positive Predictive Value 阳性预测值(PPV)为该诊断方法测试为阳性受试者中,明确患有该病的患者比例 | 这个测量值告诉我们在这批人群(阳性)中该诊断方法的性能表现如何。这基于该方法的精确度(主要是特异性)以及该疾病的患病率 |
该例中,PPV=240/390=0.62 | 在390个用该诊断方法测试阳性的患者中,仅有62%的受试者的确患有该病 |
Negative Predictive Value 阴性预测值(NPV)为该诊断方法测试为阴性的受试者中,未患该病的受试者比例 | 这个测量值告诉我们在这批(阴性)人群中该诊断方法的性能表现如何。这基于该方法的精确度以及该疾病的患病率 |
在该例中,NPV=600/610=0.98 | 610个阴性受试者中,98%的受试者无老年痴呆症。 |
第三步,文献中所描述的方法是否足够详细以便于复制于其他地方? | |
最佳标准是什么? | 我在哪里可以找到符合标准的信息? |
文中应对测试方法做详细的描述并允许复制于其他地方。对结果也应该有详细解释。 | 在方法中应该有对测试方法的详细描述 |
通过上面的解析,我们在看任何一篇文献得出某诊断方法的敏感性或特异性时,就能大致知道得出的结论是否严谨以及对临床的指导意义有多大。简单的说,如果敏感性越高,那么该检查方法的漏诊率就越低。特异性越高,该检查方法的误诊率就越低。那么,哪个数值是标准值呢,抱歉并没有,这些检查本身是帮助您进行判断的,而判断的方法并不只是一种,最终下的诊断,是你多方综合的最后结果。
温馨提示
欢迎加入“枫叶之国肌骨资料分享和学习小组群”,本群主要为致力于提高肌骨治疗能力的物理治疗师搭建互助互学互授平台。垂询微信号:hehuahong321。
枫叶之国话康复整理,转载请事先联系并注明出处。
本公众号微店“枫叶康复驿站”为康复治疗专业人士提供国外最新康复治疗产品及肌骨物理治疗资料。欢迎光临!长按下方微店图片中二维码,即可进入。