痴呆已成为老年人的常见病,我国60岁以上人群痴呆患病率为7.2%,高于全球平均水平(6.2%),年发病率0.625%,痴呆人数占全球患病总数的1/4[1,2]。常见的痴呆病因主要有阿尔茨海默病(AD)、血管性痴呆(VaD)、路易体痴呆(DLB)、帕金森病痴呆(PDD)、额颞叶痴呆(FTD)等,其中AD占所有病因的60%~80%[1]。现有药物如胆碱酯酶抑制剂和谷氨酸受体拮抗剂只能短期改善症状,不能延缓疾病进展[3,4,5]。因此,早发现、早诊断、早治疗已成为痴呆防治的全球共识。
然而,痴呆诊断无中国标准,采用国际标准则因语言文化环境不相同、生物标志物检测技术不统一和医疗资源配置不均衡等因素影响,我国痴呆就诊率仅为26.9%,临床漏诊率高达76.8%(比荷兰高39%),在社区93%痴呆患者未被发现(比英国高33%),接受规范化治疗率仅21.3%(不及美国的1/3),使我国痴呆诊治总体水平落后于高收入国家[6,7,8,9,10]。建立本土化的痴呆筛查和评估标准化系统,对提高我国痴呆早期诊断率和准确性具有重要意义。
痴呆筛查和评估涉及病史、体格检查(尤其某些特殊检测如视野缺陷和嗅觉减退等)以及必要的辅助检查或生物标记检测,其中认知测试是体格检查的一部分,至今仍然是痴呆筛查的首选方法。然而,由于各种测试的适用对象和用途不同,加上这些测试的最佳分界值受语言、教育、年龄和环境的影响,选择何种测试和分界值用于痴呆筛查国内外并无定论[11]。因此,构建适用于我国的痴呆筛查和评估系统是亟待解决的关键科学问题。
美国国家衰老研究所和阿尔茨海默病协会(NIA-AA)2011年制订的痴呆核心临床标准将痴呆定义为"认知或行为(神经精神)障碍干扰了工作或日常生活活动",其中认知或行为障碍至少涉及2个领域[12]。该临床标准建议的诊断范围涵盖从轻度认知损害(MCI)到痴呆,具有广泛的适用性。我们研究小组以该标准所涉及的领域为痴呆筛查和评估框架,利用一个多中心病例在线登记系统(软件著作权号2014SR015590)的5 396例受试者信息(AD痴呆1 470例;其他痴呆1 434例;MCI 916例;认知正常1 576例),在语义对等、内容对等、性能对等原则下,采取双向翻译、内容转换、性能评估等研究方法,对认知、行为和功能等领域的评估技术及其筛查阈值和诊断价值进行了系统研究,历时7年,创建了适用于中国人群的痴呆筛查和评估框架,为我国临床环境下的痴呆筛查和诊断提供一种新的实践指导。
认知筛查是痴呆筛查和评估系统的核心部分。认知筛查是采用简短认知测试技术评估受试者的记忆、视空间、执行、语言等单领域和多领域认知功能,并根据筛查阈值检出异常个体。我们在前期研究基础上建立认知筛查和评估标准化系统(表1),主要包括记忆、视空间/注意力、执行、语言及综合认知评估工具及其筛查阈值和诊断价值[13,14,15,16,17,18,19,20,21,22,23,24,25],适用于中国人群的痴呆和痴呆危险人群的筛查。
认知筛查和评估框架
认知筛查和评估框架
项目/筛查评估工具 | 轻度认知损害 | 痴呆 | ||||||
---|---|---|---|---|---|---|---|---|
分界值 | 敏感度 | 特异度 | 分界值 | 敏感度 | 特异度 | |||
记忆 | ||||||||
DSR(共56分)[13] | ≤15.5 | 0.90 | 0.80 | ≤10.5 | 0.98 | 0.94 | ||
年龄50~64岁 | ≤15.5 | 0.92 | 0.71 | ≤12.5 | 0.97 | 0.96 | ||
年龄65~74岁 | ≤12.5 | 0.95 | 0.82 | ≤9.5 | 0.98 | 0.90 | ||
年龄75~84岁 | ≤10.0 | 0.98 | 0.59 | ≤5.0 | 1.00 | 0.90 | ||
HVLT(共36分)[14] | ≤21.5 | 0.69 | 0.71 | ≤15.5 | 0.95 | 0.93 | ||
年龄50~64岁 | ≤23.5 | 0.70 | 0.72 | ≤18.5 | 0.96 | 0.92 | ||
年龄65~74岁 | ≤21.5 | 0.67 | 0.70 | ≤15.5 | 0.91 | 0.89 | ||
年龄75~84岁 | ≤18.5 | 0.78 | 0.56 | ≤14.5 | 0.95 | 0.93 | ||
视空间/注意力 | ||||||||
TMT-A(共150 s)[15] | ≥72.5 | 0.48 | 0.78 | ≥98.5 | 0.78 | 0.92 | ||
年龄50~64岁 | ≥52.5 | 0.59 | 0.61 | ≥80.5 | 0.85 | 0.93 | ||
年龄65~74岁 | ≥88.5 | 0.45 | 0.89 | ≥90.5 | 0.76 | 0.91 | ||
年龄≥75岁 | ≥75.5 | 0.71 | 0.61 | ≥101.5 | 0.75 | 0.79 | ||
CDT-CG(共4分)[16] | ≤3.5 | 0.85 | 0.85 | ≤2.5 | 1.00 | 0.70 | ||
执行 | ||||||||
TMT-B(共300 s)[15] | ≥135.5 | 0.52 | 0.80 | ≥188.5 | 0.83 | 0.92 | ||
年龄50~64岁 | ≥101.5 | 0.47 | 0.79 | ≥150.5 | 0.91 | 0.94 | ||
年龄65~74岁 | ≥154.5 | 0.56 | 0.87 | ≥165.5 | 0.82 | 0.89 | ||
年龄≥75岁 | ≥147.5 | 0.72 | 0.66 | ≥199.5 | 0.84 | 0.77 | ||
CDT-DG(共4分)[14,17] | ≤3.5 | 0.80 | 0.60 | ≤2.5 | 0.67 | 0.87 | ||
语言 | ||||||||
BNT-30(共30分)[18,19] | ≤23.5 | 0.68 | 0.65 | ≤21.5 | 0.86 | 0.74 | ||
教育≤9年 | ≤19.5 | 0.96 | 0.46 | ≤19.5 | 0.96 | 0.84 | ||
教育>9年 | ≤25.5 | 0.48 | 0.88 | ≤21.5 | 0.88 | 0.64 | ||
BNT-12(共12分)[20] | ≤11.0 | 0.85 | 0.94 | |||||
综合认知 | ||||||||
MMSE(共30分)[21,22,23,24] | ≥27.0 | 0.69 | 0.91 | ≤24.0 | 0.81 | 0.89 | ||
大学(>13年)a | ≤26.0 | 0.94 | 0.90 | |||||
中学(7~12年)a | ≤24.0 | 0.82 | 0.99 | |||||
小学(1~6年)a | ≤23.0 | 0.82 | 0.99 | |||||
文盲(0年)a | ≤22.0 | 0.82 | 0.99 |
注:DSR为延迟故事回忆测试;HVLT为霍普金斯词语学习测试;TMT-A为连线测试-A;CDT-CG为画钟测试-复制图形;TMT-B为连线测试-B;CDT-DG为画钟测试-画制图形;BNT-30为波士顿命名测试-30项;BNT-12为波士顿命名测试-12项;MMSE为简易精神状态检查;a指接受学校教育的年限
早期显著的情节记忆损害是AD的核心特征。我们在英国的前期研究发现,延迟故事回忆测试(DSR)是评估情节记忆最有效的工具和MCI转化为痴呆的最敏感的预测指标,但最佳分界值存在语言和文化差异[25]。为此,我们在北京说普通话的人群(631例)中进行了转化研究,受试者工作特征(ROC)曲线显示DSR最佳分界值为≤10.5分,区分AD和正常对照的敏感度和特异度分别高达0.98和0.94,阳性预测值(PPV)为0.72,阴性预测值(NPV)为0.99,ROC曲线下面积(AUC)为0.99,与简易精神状态检查(MMSE)得分有显著相关性(r=0.575, P=0.000)[13]。该分界值比英文版低2.4分,敏感度和特异度分别提高18.1%和11.6%。因受年龄等因素影响,故列举了年龄调整值,以供选择[13]。DSR区分MCI与正常对照的最佳分界值为15.5分,敏感度和特异度也达到0.90和0.80,高于霍普金斯词语学习测试(HVLT)筛查性能(表1),故推荐DSR同时用于痴呆和MCI筛查,而HVLT仅作为痴呆筛查的替代测试。DSR不仅填补国内空白,占全球7项同类研究中的3项,也是该领域仅有的汉语版研究成果[26]。研究证实,DSR是非常理想的MCI检测工具,尤其是MCI伴有记忆损害的患者,在痴呆检测中具有最佳的分辨力[27,28],准确性优于西班牙版[28],也优于词语表测试和其他认知量表[14],被中华医学会/中国医师协会相关指南推荐为我国痴呆筛查的"基本测验"[29]。
视空间功能障碍常出现在AD早期,执行功能障碍是额颞叶变性(FTLD)和VaD的典型表现。连线测试-A(TMT-A)主要测试精神运动速度和视觉注意力(视空间功能),连线测试-B(TMT-B)主要测试认知交替和转移能力(执行功能)[15]。我们研究确定了被科学引文索引(SCI)收录的唯一基于中国人群(2 294例)的TMT最佳分界值,TMT-A≥98.5 s区分AD与正常对照的敏感度为0.77,特异度为0.92,TMT-B≥188.5 s区分AD与正常对照的敏感度为0.83,特异度为0.91,但TMT-A和TMT-B区分MCI和正常对照的敏感度较低,故推荐画钟测试-复制图形(CDT-CG)和画钟测试-画制图形(CDT-DG)分别作为检测MCI视空间和执行功能的替代评估[16]。不过,画钟测试(CDT)完成时间和成绩与年龄和教育程度相关[15,30],在教育水平较低(<9年)的患者中,敏感度高于MMSE[31]。
找词和命名困难是AD早期的语言损害特征。常用的波士顿命名测试(BNT)得分受语言的影响[21,32,33,34],BNT-60项在英语人群的得分显著高于西班牙语人群[(46.0±6.6)分比(32.0±8.8)分,P<0.01][34]。BNT-12项的西班牙语版[分界值(11.00±1.16)分]诊断AD型痴呆的敏感度和特异度(0.85和0.94)类似于BNT-60项[21]。我们采用的BNT-30项汉语版分界值为≤21.5分(681例),筛查AD型痴呆的敏感度和特异度分别为0.86和0.73,优于筛查MCI的性能,对低教育程度(≤9年)人群的敏感度优于高教育程度者(>9年),P<0.01 [18,19],故表1中列举了年龄调整值。单词流畅性评估工具如受控口头词语联想测试(COWAT)<26分筛查遗忘型MCI的敏感度为1.00,筛查多领域型MCI的敏感度为0.83,但特异度较低,分别仅为0.29和0.29[35],故未列入框架。
MMSE是被广泛验证的综合认知测试,具有良好的痴呆筛查性能,但最佳分界值受语言和教育水平的影响。虽然其筛查MCI的敏感度低于蒙特利尔认知评估(MoCA),但特异度高于MoCA[22,36,37,38,39,40,41,42,43,44]。MoCA≤25分筛查血管性认知损害(含痴呆和MCI)的敏感度为0.95(95%CI 0.89~0.98),而特异度仅为0.45(95%CI 0.34~0.57)[36],存在过度筛查风险[22,37]。美国国家阿尔茨海默病协调中心(NACC)研究小组曾建议将分界值调到21分[38],遗憾的是≤21分筛查血管性MCI的敏感度和特异度分别为0.94和0.42[39]。与普遍观点相反,MMSE≤26分筛查痴呆的敏感度为0.81(95%CI 0.78~0.84),特异度为0.89(95%CI 0.87~0.91),ROC曲线显示诊断优势比为35.4,AUC为0.92(95%CI 0.90~0.94)[41];MMSE≥27分筛查血管性MCI也表现出可接受的有效性(敏感度和特异度分别为0.82和0.76)[40],但两者没有必要重复使用。因此,本框架推荐MMSE用于认知筛查。如果选择MoCA,美国NACC研究小组建议将MoCA分数转化为MMSE标准后使用[42]。
行为是痴呆的精神行为症状(BPSD)的统称,属于痴呆的非认知症状。不同类型痴呆存在许多共性精神行为症状,常见于FTD早期和AD中重度阶段。详细的精神行为症状评估有助于全面了解患者的病情程度和以精神行为症状为主的痴呆早期诊断,还能发现潜在的认知损害及监测治疗的效果。因此,BPSD评估是痴呆筛查和评估系统不可或缺的组成部分(表2)[43,44,45,46,47,48]。
行为筛查和评估框架
轻度行为障碍清单(MBI-C)是一个用于痴呆前阶段的神经精神症状的评估工具,包括5个测试领域,即主动性下降、情绪失调、冲动控制、社交不合时宜、知觉或思维异常,包括34个测试问题,根据有无及严重程度进行评分(1为轻度,2为中度,3为重度)。评估的症状要求持续6个月或以上。MBI-C≥6.5分筛查轻度行为障碍(MBI)的敏感度和特异度分别为1.00和0.78[43],目前还没有中文版本。基于MBI概念的重要性,建议及早进行MBI-C的检测,以便识别早期阶段的神经变性病。
神经精神指数(NPI)≥8.0分和神经精神指数问卷(NPI-Q)≥10.0分筛查BPSD的敏感度和特异度几乎相同[45],但对于不同类型痴呆的诊断意义却不尽相同,如FTD患者的NPI得分(58.0±19.3)明显高于AD(3.6±4.7,P<0.01),且淡漠、异常行为、脱抑制和饮食异常在FTD患者中更加突出[46]。
额叶行为问卷(FBI)在痴呆领域的应用研究非常广泛,鉴别FTD与其他痴呆正确率为0.92(FBI≥30分提示FTD)[47]。但不同研究采用的分界值差异较大,FBI≥29/30分诊断FTD的敏感度和特异度分别为0.80和1.00,≥22/23分诊断FTD的敏感度和特异度分别为0.97和0.95,比NPI能更好地鉴别FTD与AD或VaD[44]。在中国患者中,FBI得分在FTD(平均21分)与AD(平均16分)间存在明显差异(P=0.031)[49],故与NPI一并推荐。
此外,大约60%痴呆患者会出现睡眠障碍,包括失眠和白天过度睡眠[50]。所以,我们推荐了匹兹堡睡眠质量指数(PSQI)评估过去1个月的睡眠质量,包括主观质量、睡眠潜伏期、睡眠维持、睡眠效率、睡眠干扰、睡眠用药、日间功能等方面,各分项计分0~3分,得分越高质量越差。原发性失眠患者中PSQI>5分时,其敏感度和特异度分别为0.99和0.84[48]。
功能是指工作或日常生活活动的能力。因认知或行为(神经精神)障碍导致工作或日常生活活动能力(ADL)下降是美国NIA-AA(2011年)核心临床标准定义痴呆的必要条件。为了筛查痴呆早期病例,详细地评估患者的工作或日常生活活动是必要的(表3)[51,52]。
功能筛查和评估框架
ADL量表有多种版本。我们引进的是最早的也是应用最多的Lawton(1969年)ADL量表,包括8项工具性日常生活活动能力(IADL)和6项基本日常生活活动能力(BADL)[53]。ADL得分在一定程度上反映认知损害的程度,ADL量表总分≥16分提示痴呆,敏感度和特异度均>0.90[51,52]。而IADL量表≥10分提示痴呆的敏感度和特异度也分别达0.92和0.93。与认知最相关的是IADL而不是BADL[54]。IADL与MMSE呈负相关(r=-0.793, P<0.01),其中4项使用工具的能力(服药、使用交通工具、处理财务和使用电话)是痴呆早期非常灵敏的指标,到痴呆晚期,如厕、穿衣、洗澡等基本生活能力也会受损[51,54]。
因此,评估IADL对痴呆早期诊断的意义可能更大,而全面评估社交或日常生活活动状态不仅有助于痴呆诊断,而且对于了解痴呆程度或临床分期也具有重要意义。
总体印象评估主要包括认知和功能两个方面,旨在判断患者是否达到了痴呆标准和痴呆所处的阶段及程度,其中临床痴呆评定量表(CDR)已经成为痴呆程度分级的金标准(表4)[55,56,57],而总体衰退量表(GDS)重点是反映疾病后期痴呆的症状和体征,临床医生总体印象量表(CGI-C)或基于临床医生访谈和照料者补充的总体印象变化量表(CIBIC-plus)主要用于临床试验的总体终点评估。
我们推荐的CDR(1993年)用于评估认知和功能两个方面,包括记忆力、定向力、判断力和解决问题能力、社会事务、家庭和爱好、个人料理6项。CDR总分(CDR global score,CDR-GS)得分为0表示正常;0.5分表示可疑痴呆;1分表示轻度痴呆;2分表示中度痴呆;3分表示重度痴呆[56]。另一种计分方法是CDR各项分数之和(CDR sum of the boxes,CDR-SB),合计18分。经验证,两种计分方法具有很好的相关性(kappa值为0.86~0.94, P<0.001)[57],CDR-SB与CDR-GS分界值的对应关系见表4。纵向研究显示,CDR-SB能够区分极轻度和轻度AD,并可预测其进展。CDR-GS为0.5分的AD,每年CDR-SB增加1.43分,CDR-GS为1分的AD,每年CDR-SB增加1.91分,基本呈现线性进展模式[58]。由于CDR同时测量认知和功能活动,因而成为有效的痴呆筛查工具[59,60],但操作者之间存在差异,使用前需通过一致性评价。
综上所述,本痴呆筛查和评估框架是将原则性的诊断指南与操作性的筛查方案相结合的产物,是解决我国痴呆临床筛查需求的一种创新的指导模式,不仅适用性高,而且易用性好。根据本框架,我们制订了一个痴呆筛查和评估标准化流程,涵盖从危险人群初筛到标准化评估直至诊断的全过程(图1),适用于中国人群的所有病因痴呆的临床筛查而非社区筛查。至于痴呆筛查后的各种痴呆病因亚型的诊断问题,可参考我们推荐的常见痴呆病因亚型的临床诊断标准(附录1)[61]。值得注意的是,虽然上述痴呆筛查和评估框架中的各种技术参数来源于经过临床验证的研究结果,但本痴呆筛查和评估框架作为一个整体与美国NIA-AA(2011年)的痴呆核心临床标准为对照的筛查性能比较尚待多中心临床评价,以便不断更新和完善。
病因亚型 | 诊断标准 | 制订者及年份 |
---|---|---|
阿尔茨海默病 | 1.阿尔茨海默病痴呆的核心临床标准 | NIA-AA,2011 |
2.阿尔茨海默病诊断的研究标准 | IWG-2,2014 | |
3.中国阿尔茨海默病操作性诊断标准 | BWG-1,2012a | |
血管性痴呆 | 1.血管性痴呆临床诊断标准 | AHA/ASA,2011 |
2.重度血管性认知障碍诊断标准 | VASCOG,2014 | |
3.遗传性多发脑梗死性痴呆新的诊断标准 | Mizuta等,2017 | |
4.中国血管性痴呆操作性诊断标准 | ADC,2017a | |
路易体病 | 1.路易体痴呆临床共识标准 | DLBC-4,2017 |
2.帕金森病痴呆临床诊断标准 | MDS,2007 | |
额颞叶变性及相关谱系疾病 | 1.行为变异型额颞叶痴呆诊断标准 | FTDC,2011 |
2.语义性痴呆临床诊断标准 | PPAC,2011 | |
3.非流利性失语临床诊断标准 | PPAC,2011 | |
4.肌萎缩侧索硬化-额颞叶谱系疾病修订诊断标准 | Strong等,2017 | |
5.皮质基底节变性诊断标准 | Armstrong等, 2013 | |
6.进行性核上性麻痹临床诊断标准 | MDS,2017 | |
7.中国进行性核上性麻痹临床诊断标准 | CMA/CMDA,2016 | |
克-雅病 | 1.散发型克-雅病诊断标准 | Zerr等,2009 |
2.变异型克-雅病诊断标准 | Heath等,2010 | |
边缘性脑炎 | 1.边缘性脑炎诊断标准 | Graus等,2016 |
2.中国边缘性脑炎诊断标准 | CMA,2017 | |
正常压力脑积水 | 1.特发性正常压力脑积水诊断标准 | Shprecher等,2008 |
2.中国特发性正常压力脑积水诊断标准 | CMA/CNIMT,2016 | |
轻度认知损害 | 1.轻度认知损害诊断的一般标准 | IWG,2004 |
2.中国轻度认知损害操作性诊断标准 | ADC,2017a | |
3.阿尔茨海默病所致轻度认知损害诊断标准 | NIA-AA,2011 | |
4.中国阿尔茨海默病所致轻度认知损害操作性诊断标准 | ADC,2017a | |
5.血管性轻度认知损害诊断标准 | VASCOG,2014 | |
6.中国血管性轻度认知损害操作性诊断标准 | ADC,2016a | |
7.帕金森病所致轻度认知损害诊断标准 | MDS,2017 |
注:本附表中各诊断标准可参见《中国痴呆诊疗指南(2017年版)》[61];a为代表中国老年保健协会阿尔茨海默病分会(ADC)制定的指南;NIA-AA为美国国家衰老研究所和阿尔茨海默病协会;IWG-2为该标准第2版的国际工作小组;BWG-1为该标准第1版的北京工作小组;AHA为美国心脏学会;ASA为美国卒中学会;VASCOG为国际血管行为和认知学会;DLBC-4为路易体痴呆联盟第4次共识会;MDS为国际运动障碍学会;FTDC为国际额颞叶变性联盟;PPAC为国际原发进行性失语联盟;CMA为中华医学会;CMDA为中国医师协会;CNIMT为中国神经外科重症管理协作组