改革营养流行病学研究面临的挑战

编译 | 大猫

某些营养科学家和大多数公众常常会把流行病学研究中发现的营养学因素的相关关系表述成因果关系,并以为这种错误表述的因果关系可以左右公共卫生政策和指南。营养流行病学的现状难以符合良好的科学原则,这个领域需要彻底的改革。

对前瞻性研究进行的最新荟萃分析发现几乎所有食物都与死亡风险存在统计学上的显著相关。关键营养素(如维生素)的严重缺乏,极致的过度进食以及超量卡路里摄入导致的肥胖等等可能确实会增加死亡风险。然而,在保持相似的卡路里摄入情况下,特定营养素、食物、或饮食习惯上的少量差异,是不是能几乎无处不在地成为显著影响生存的原因呢?

假设荟萃分析发现的证据表明了关乎一生的因果关系,而且基线预期寿命为80岁,每天吃12颗榛子可多活12年(即每颗榛子多活1年)、每天喝3杯咖啡可以类似地多活12年、每天吃个橘子会增加5年的寿命。相反,每天吃个鸡蛋会使短寿6年、每天吃2片咸肉会短寿十年(这效果比吸烟还糟糕)。这些可能是真实的吗?在报告这些研究的结果时,作者通常使用因果性的说法(例如:如果能最优化地吃那些能降低(死亡)风险的食物,会把全因死亡率降低56%)。各种疾病负担研究和指南认可这些估算。即使作者会警告说要慎重解读,但这些发现仍然经常被媒体报道为因果关系。

这些对饮食的益处或风险的不怎么样的估算可能几乎完全是反应了这类研究中累积的偏差,来源于大量未能完全控制的干扰因素和选择性地报告结果。几乎所有营养变量都存在相互的关联;因此,如果一个变量与健康风险有因果关系,那么其它很多变量,当数据量足够大的时候,也会和健康风险发生显著的关联。随着更多的研究使用大数据,几乎所有营养变量都将与几乎所有的健康风险相关联。此外,鉴于饮食行为和模式与许多同样可以影响健康的社会和行为因素有着复杂的关联,目前没有可用的受试者群体能够包括足够的数据来解决营养学相关研究中的干扰因素。

此外,营养流行病学报告的是非预期的结果,这些数据常常可以用不同的方法进行分析,所以文章常常会被其作者所左右,结果是原本的荟萃分析(这种最高级别的证据)却变成了经过加权平均的专家意见(这种最低级别的证据)。事情按照相反的顺序来了,不是先认真进行原始研究来为指南的制定提供信息,反而是由(某个说法的)提倡者设计的指南来指点原始研究应该报告些什么。所以毫不奇怪地,在对国家膳食指南进行独立评估之后,美国国家科学院、工程院和医学院建议对这些指南的开发过程进行重要的变动:增加透明度、促进专业知识和经验的多样性、更加审慎的过程、控制偏差和不一致、并采用最先进的方法。

想要维持现状的人可能会说,由于均衡性错分削弱了相关关系,实际存在的关联甚至可能比论文报告的更大。确实,(受试者)自我报告的数据会有误差,但不能保证它是均衡性的。然而,如果误差是均衡性的而且估算出的影响会减弱的话,研究报告的结果会变得更加难以置信:每天吃12颗榛子将会使预期寿命延长20到30年,而不仅仅只有12年。

每个人每天摄入数千种化学物质,而这些物质可能有数以百万计的各种组合。例如,我们有超过25万种不同的食品和更多种可以吃的东西,仅可食用的植物就有30万种。貌似相似的食物在精确的化学成分上却有所不同(例如超过500种不同的多酚)。许多文献默认疾病风险受最丰富的那些物质调节,例如,碳水化合物或脂肪。然而,食物中相对不常见的一些化学物质、偶然的污染或有毒物质、仅在特定条件下出现的成分或食物制备方法(例如,红肉烹饪)也可能是有影响力的。能带来风险的营养素组合可能因食用者个体的遗传背景、代谢特征、年龄、或所处的环境而异。要从这么些其它变量中摘出单一膳食成分对健康风险的潜在影响,即使并非不可能,也是具有挑战性的。

使用遗传学来类比一下,研究特定食物和健康风险的关联就像研究大的染色体区域是否会增加死亡风险。几十年来,人们一直在努力用基因组连锁扫描试图将大的染色体区域与疾病风险联系起来。目前看来,之前的这些努力注定要失败,因为每个染色体区域包含数千种遗传变异。连锁扫描产生了大量文章,但有用的信息却有限。现在看回去,使用几百个微卫星标记来研究具有数百万种多态性的整个基因组看来是太天真了。同样,通过回答几个问题和自我报告几个项目来确定的这种自我报告式的营养数据无法确认或准确测量一个有着不低于基因组的复杂性的系统。

除了食物研究之外,单一营养素研究的结果在随机试验中基本上未能得到证实。假阳性的关联在文献中比比皆是。例如,对前瞻性队列研究的最新荟萃分析表明,β-胡萝卜素作为一种单一的抗氧化剂,对降低死亡率的作用比上述所有食物都要强。血清或血浆中的β-胡萝卜素水平最高组与最低组的相对死亡风险为0.69(95%CI,0.59-0.80)。即使用生化指标来降低测量误差,营养流行病学本质上仍然不可靠。这些结果不能被认为是因果关系,尤其是现在多次大型研究结果得到的置信限排除了甚至是较低水平的益处。

营养流行病学现状的支持者指出偶尔有一些小规模的试验的替代性指标或代谢方面的数据的结果与流行病学的发现一致。然而,这些小规模试验通常有选择性报告结果的偏差,和营养流行病学有类似的缺陷。

营养研究可能已经对公众对科学的看法产生了负面的影响。这些资源本可以更好地用于研究明确可控的健康威胁,如吸烟、缺乏运动、空气污染或气候变化等等。此外,强推的营养流行病学模型也可能对公众的健康营养有害。比如一些人用没有证据支持的信条为多吃来背书,说只要吃的是“优质食品”就行,这种做法迷惑了公众并偏离了原本预防和治疗肥胖的目标。

这种乱象被该领域发表论文的方式弄得更糟。作者常常从整体数据中切割出一部分来发表,完全不考虑来自同一样本的其它结果。某一篇文章里报道的单一营养素对健康风险的显著效果在与其它因素隔绝的情况下看上去似乎很合理,但如果把所有结果都包括在一起看的时候就没什么意义了。鉴于存在众多可供分析的各种相关关系,一些高产的受试者人群(例如欧洲癌症和营养前瞻性调查、护士健康研究等)已经产生了超过1000篇文章。营养流行病学的文章也很抓眼球,因为公众对营养问题非常感兴趣并且总是被有意误导。例如,2017年获得最受关注的20项研究中的一项是关于咖啡对寿命益处的研究。尽管存在严重的局限性和不足,这类研究却被大量的引用。

另外一些大规模长期的、随机分组的营养学试验可能有些用处,特别是用于饮食模式的评估。迄今为止最有希望的大型试验,PREDIMED,地中海饮食试验,已经在复合终点指标上看到了地中海饮食的益处,但此文最近被撤稿并重新发表,因为论文发表之后才被发现其随机分组是不完善的,包括了多个小规模的随机分配。尽管重新分析的结果与最初报告的结果相似;然而,该研究不应再被视为是随机试验。无论如何,该试验结果并不支持地中海饮食对寿命的益处。针对更复杂的饮食模式而设计的大型实用性试验同样很可能得到负面结果。尽管如此,这些试验的结果也许有助于为营养指南提供一些务实的“意向食用性”数据。

营养流行病学研究领域的改革早就应该实施了。现有的数据应该开放供独立的研究人员来重新分析。研究结果应该完整地报告所有测到的营养因素,要使用标准化的方法,并对研究结论如何受模型和分析方法的影响进行标准化的探讨。读者和制订指南的人应该忽视之前的营养流行病学文章中那些草率的对因果关系以及公共政策提议的陈述。以后这种陈述应该避免。

营养流行病学界有一些极好的科学家。他们中最好的那些人应该掌控这一改革进程。他们可以通过以身作则来发挥进一步的领导作用(例如,更正他们自己的具有误导性主张的文章)。这种更正会示意严格的科学标准和公共责任。有缺陷的方法学已经在营养流行病学界成为主流,来试图解答这些特别难以回答的问题,这些问题比其他流行病学学科更难。

有人可能会通过类比的方式这样来反诘,基因组连锁扫描领域的(错误)论文并没人去纠正,为什么要纠正营养流行病学论文呢?两者不同的是,用少量微卫星标记进行的那种基因组扫描已被更好的方法所取代,而且这方面的论文通常不会影响公共政策和人们的生活。相反,营养流行病学的研究还在不断地发表,用谬误来影响指南的制订,并通过专家们和非专家们的激烈宣传来搅乱公众的看法。

已经和将会致力于改革的营养流行病学家应该得到表扬,例如,持续资助他们进行关键性的试验、广泛分享他们的人群数据、进行透明的包括了所有营养因素的分析、并探索全新的营养学研究途径。资助机构应支持这些改革计划,从而使营养学研究领域重新焕发青春。

 

~~~欢迎转发~~~

!!!转载请联系我们获取授权!!!