观察者网 发表于 2020-6-14 08:51:15

哈佛新冠论文的漏洞,你以为就那么几条?

<style>.t_f p{margin:20px 0px;}</style>6 月 8 日,美国哈佛医学院公布了一篇尚未经过同行评议的论文,在太平洋两岸火了一把。论文标题是 " 对中国武汉医院交通与搜索引擎的数据分析,提示 2019 年秋季有早期疾病活动 ",什么疾病呢?标题没有明说,看下去就知道,当然是全球瞩目的新冠病毒肺炎了。作者们在摘要里说,2019 年夏末秋初,武汉医院的停车量和百度上 " 咳嗽 " 的搜索量都增加了,虽然 " 咳嗽 " 可能和流感季相符,但 " 腹泻 " 更多地是个具有新冠特征的症状," 只和当前流行病相联系 "(only shows an association with the current epidemic)。" 这些信号都早于 12 月,突出新颖的数字信息对监测新传染病的价值。"摘要里还不敢明言新冠就是夏末秋初爆发的,但显然已经明确联系起来。可我就纳闷啦,有些新冠病人有腹泻,但引起腹泻的病那可多了去了。你们不知道武汉夏末秋初有多热是吧?东西时间放得长了,吃坏肚子很正常啊。我迫不及待地打开论文,想看看作者们到底是怎么想、怎么做的。你猜怎么着,他们还真的煞有介事地说:" 我们发现,8 月对腹泻的搜索有独特的增长,过去的流感季里没有观察到,与咳嗽的搜索趋势也不相符。虽然令人惊讶,但这一发现与最近的一项研究一致,那项研究确认胃肠道症状是新冠的特征之一,可能是现有相当一部分病人的主诉。"然而,流感季原文用了复数,显得好像以前一直没有,2019 年真的很特别的样子。但图说明确写着,只是 2018 年 1 月到 2020 年 5 月。因此 8 月仅有 2018 年与 2019 年比较,根本不说明问题。我详细看了看方法,作者声称用 WebPlotDigitizer 在百度指数的页面上提取 " 咳嗽 " 与 " 腹泻 " 的 " 相对搜索量 "(relative search volume),也没有具体解释什么是 " 相对搜索量 "。也许就只是 " 搜索指数 " 的数值吧,毕竟百度并不公布 " 绝对搜索量 ",但为什么不写明呢?不大了解中国网络的外国研究者,会不会被 volueme 和 index 搞糊涂,不方便查验呢?论文作者后来又在讨论搜索数据时承认:" 尽管此方法在复制时间序列时显示有效,但使用自动化工具(提取数据),生成数字图像,确实意味着提取的时间与数值是近似值。"没想到,观察者网编辑一查验 " 百度指数 ",发现不管怎么理解所谓的 " 相对搜索量 "," 咳嗽 " 的曲线形态是一致的,但 " 腹泻 " 的曲线形态完全不同,根本不存在 8 月的独特增长。这个问题怎么解释?还能认为只是近似值的问题吗?data/attachment/portal/202006/14/103901xj34nndyr6kadnj5.jpg蓝线为咳嗽,红线为腹泻data/attachment/portal/202006/14/103902hzddrrzd4dfqe4wd.jpg所谓显示 " 复制时间序列时有效 " 的参考文献,我看了,是纽约市 2012-2013 年流感季的推特数据,换了一个完全不同的平台就真的有效?事实就是打脸了。就算按照论文作者的图表," 腹泻 " 搜索有暴增(第一根虚线的左侧一小段),但同时 " 咳嗽 " 搜索在下降。假如真是新冠,必定存在大量有消化道症状、没有呼吸道症状的患者。但我看了论文作者引用的那项 " 胃肠道症状 " 研究,这类患者在新冠病人中占多少?只有 3%!这个问题,他们又怎么解释?data/attachment/portal/202006/14/103902s64t4n0z4rvc6nwh.jpg不要以为论文引用了什么,就一定是站它的,其实可能只是浑水摸鱼。" 咳嗽 " 搜索的问题,当然也不攻自破。只要看看作者自己的图片,就能发现,2018 年流感季的 " 咳嗽 " 搜索,迅猛增长发生的月份比 2019 年流感季更早。更重要的是,每年流感季的时间、强度都不同,单把流感季的相关特征拿来比较,根本无法推断是否有新的疫情发生。更何况只有两年的比较。论文作者在讨论搜索数据时,自己也坦承 " 不能给增长的原因下结论 ",但又 " 假设有广泛的社区传播 ",明明缺乏严密的逻辑、靠谱的证据,还要如此推论,这是学术还是话术?剩下的就是停车问题了。论文作者说,"10 月和 11 月医院停车量增加了,‘咳嗽’搜索也增加了 "。普通人看了,都知道这是废话,这不是流感季理所当然会有的情况吗?且不说进医院的人数,完全无法和特定疾病相联系,你根本无法知道一个人进医院是看什么病,就算真的都是呼吸系统疾病,又能说明什么问题呢?data/attachment/portal/202006/14/103902zt8e8g2rqkqqk5vr.jpg看上去,2019 年的停车量比 2018 年相应月份的高,但论文的 " 结果 " 部分,只是描述了 2019 年的曲线形态,根本没有与 2018 年的具体比较,只是说 "2018 至 2020 年间,医院停车量总体呈增长趋势 ",难道自己也对仅仅两年的比较有点心虚?其实一搜索就能发现," 据武汉交警介绍,武汉市机动车保有量 ……2015 年年末达到 205 万辆;随后,每年以 30 万辆左右的速度递增,2019 年年底突破 330 万辆。" 停车量整体增长是很正常的。还有更复杂的,武汉的轨道交通建设也热火朝天。2018 年 10 月 1 日,武汉地铁 7 号线、11 号线东段一期开通试运营。12 月 28 日,武汉地铁纸坊线正式开通运行。2019 年 2 月 19 日,武汉地铁 2 号线南延线开通,9 月 25 日,武汉地铁蔡甸线正式开通试运营,11 月 6 日,武汉轨道交通 8 号线三期开通试运营。也就是说,两种出行方式的基本情况变化都很大。在具体某一时刻,你根本无法判断机动车用户、轨道交通用户的增减情况。论文作者里好像有懂中文的呀,这些信息都查不到?是不是查到了也不敢说?因为本来证据就薄弱,如果再承认背景条件变动如此剧烈,这论文就没法看了。其实论文的方法还有更多问题。作者声称搞了一个全面的武汉医院名单(a comprehensive list),但排除专科医院(如武汉亚洲心脏病医院),以及没有卫星图像的医院(如金银潭),选定了 6 家医院用于图像分析。从一个 " 全面 " 名单,砍到只剩 6 家 ……6 家啊,这能有什么代表性?论文作者在 2018 年 1 月 9 日到 2020 年 4 月 30 日几乎整整 28 个月里,总共只搜集到 111 张武汉卫星图片,提取出 140 张医院图片。分摊到每家医院,平均只有 23 张多,连每月一张都不到。因此,医院数据有长达半年、甚至一年以上的跳断。这又能有什么代表性?data/attachment/portal/202006/14/103903h6xzr0i6yyg8x668.jpg论文作者解释,由于 " 缺乏商业价值 ",武汉的卫星图片比其他城市中心的相对较少,长时段存在多云天气与雾霾,甚至抱怨在向中国卫星公司获取数据时 " 遇到挑战 "…… 但关键问题,难道不是数据不理想,就不要硬写论文吗?作者还选中武昌火车站、汉口火车站、华南海鲜市场作为方法有效性的验证(validation)。然而,这个验证对象的选择是错误的。虽然中国医院往往 " 人满为患 ",但从实际的就医经验看,上午、中午、下午医院里的人数多寡、等候的时间长度,都是不同的。论文作者在讨论时,其实提到了时刻问题,但出发点是规避高楼阴影,要用中午时的图片。然而,全部选择正午的卫星图片是做不到的,只能选接近的时刻。但这近似就有问题了,上午 11 点和下午 1 点,完全可能是两种出行模式。如果数据对时间敏感,卫星又难以保证在每天同一时刻掠过目标上空,最需要验证的是,不同时刻获取的数据,能否真实反映当天医院客流量的相对多寡。但火车站和时刻表相关,海鲜市场也不是医院,这样的验证设置,毫无意义。作者最后在 " 结果 " 的文字部分只提了验证地点的照片数量是 117 张,没有具体的分析,另在附图中出现了天佑医院与海鲜市场的比较。但令人惊奇的是,医院有三张图片,是 2018 年 10 月、2019 年 10 月与 2020 年 2 月,市场却只有 2019 年 9 月、2020 年 2 月两张图片。data/attachment/portal/202006/14/103903bs2j452ysdz6o09y.jpg且不说时刻的问题,单看这个日期选择,就是匪夷所思。2020 年 2 月已经是封城的特殊时期,根本没有比较的价值。如果作者想呈现特殊时期的情况,也应该同时提供与论文主旨—— " 早期疾病活动 " 相关(如 2019 年 12 月)的图片,看看 10 月与 12 月的差别,以及 2018 年相应月份的比较。(不过需要再次指出,即使如此,也是有问题的,就像前面所说,流感季每年会有数量与时间前后的波动,仅比对两年不合适。)现在 2018 年市场图片又缺失,无从比较,光有 2019 年的图片有什么用?这五张图完全失去意义。有人嘲讽说论文是本科水平,我觉得高中生都未必会这样展示所谓的 " 验证 " 吧?也许作者有什么难言之隐?用卫星监测整体就医量,对于公共卫生可能有一定的参考意义,但在具体操作上有前面所述的种种困难与陷阱,可比较的数据不足,很难得到理想的结果。而且,在医院系统内部有迅捷的数字统计与上报系统的情况下,并没有优势。如果要针对单一疾病,在原理上就有根本缺陷——无法从整体中辨别出单一疾病,这点远不如医院系统的直接统计。至于搜索的信息,同样有根本缺陷。某种症状的搜索量增加了,当然有些提示作用,但一种症状,往往对应许多种疾病,根本无从判断是哪种疾病的患者增加,更不要说判断有没有新疾病了。那么,论文作者们为什么在承认诸多不足时,依然对自己的方法颇有自信,非写文章不可呢?我不揣测他们是否对中国有什么主观恶意,还是从论文分析。他们在引言第二段里就说:" 数字流行病学和非传统数据流,如卫星图像和互联网搜索趋势,以前曾被用于呼吸道疾病监测 "。听着好像很厉害啊,早有验证呢。但看看这句话后面的两篇参考文献。一篇是《H7N9 流感与数字流行病学的重要性》,其实也不算是论文,是发在《新英格兰医学杂志》上的 "perspective",可以称为 " 热点透视 "。但看下来,这 " 透视 " 里也没多少有价值的独家信息。2013 年 3 月 31 日,中国官方向 WHO 通报发现了 H7N9 流感," 透视 " 作者们的工作,只是看了下 3 月 31 日后,推特数量、中英文报道的数量、新病例和新增死亡的数量。这只是爆发后的 " 数字流行病学 ",又不是没发现 H7N9 时的 " 早期疾病活动 ",和新论文没什么关系嘛。疾病曝光后,相关新闻、帖子数量当然增加,随着新增病例归零,舆论热度也消退,拍拍脑袋都能想到。另一项工作是从微博上找信息,比如附在文中的图片,是 4 月 3 日流出的病例,作者的意思是要重视这种社交媒体上的信息。但当时官方都已经通报,这病例又能说明什么问题呢?和早期监测、预警也无关。data/attachment/portal/202006/14/103903fbupzykb8ttyye0p.jpg我是搞不懂为什么要引用这样的文献,一看作者,很眼熟啊,这 John S. Brownstein 不也是新论文的作者吗?再看第二篇参考文献《利用从高分辨率卫星图像获取的医院交通数据监测疾病趋势》。稍微有点干货了,大意是在墨西哥、智利、阿根廷通过医院的卫星图片,经过一番操作,最终拟合出流感样病例在病人总数中的比例,与停车数量的趋势呈现一致性。这篇参考文献的主要作者也有 John S. Brownstein,另一个 Elaine Okanyene Nsoesie,也是所评哈佛论文的作者之一。自己引用自己,玩得挺溜。这当然不犯法,但看上去,给人的感觉好像这套方法就是你们小圈子里在玩啊。前面提到的那些根本性的障碍,在拉美的研究里,为什么就 " 神奇 " 地解决了呢?作者们是不是要好好反思下基本原理、数据获取与处理的方法,甚至是否存在更严重的学术问题?喜欢自引自 high,还非要硬着头皮写论文,难怪论文公开后饱受批评,只有政客和西方媒体在吹捧;也难怪世卫组织卫生紧急项目负责人迈克尔 · 瑞安会说:" 重要的是不要过多推测 …… 因为本身并没有证据表明实际发生了什么 …… 世卫组织将不会基于此类研究展开推测,因为其不会在提供支持和跟踪疾病上产生帮助。"免责声明:如果本文章内容侵犯了您的权益,请联系我们,我们会及时处理,谢谢合作!
页: [1]
查看完整版本: 哈佛新冠论文的漏洞,你以为就那么几条?