哈佛新冠论文的漏洞，你以为就那么几条？

观察者网 · 发表于 2020-6-14 08:51:15

马上注册，结交更多同城好友，享用更多功能！

您需要登录才可以下载或查看，没有帐号？立即注册

x

6 月 8 日，美国哈佛医学院公布了一篇尚未经过同行评议的论文，在太平洋两岸火了一把。

论文标题是 " 对中国武汉医院交通与搜索引擎的数据分析，提示 2019 年秋季有早期疾病活动 "，什么疾病呢？标题没有明说，看下去就知道，当然是全球瞩目的新冠病毒肺炎了。

作者们在摘要里说，2019 年夏末秋初，武汉医院的停车量和百度上 " 咳嗽 " 的搜索量都增加了，虽然 " 咳嗽 " 可能和流感季相符，但 " 腹泻 " 更多地是个具有新冠特征的症状，" 只和当前流行病相联系 "（only shows an association with the current epidemic）。" 这些信号都早于 12 月，突出新颖的数字信息对监测新传染病的价值。"

摘要里还不敢明言新冠就是夏末秋初爆发的，但显然已经明确联系起来。

可我就纳闷啦，有些新冠病人有腹泻，但引起腹泻的病那可多了去了。你们不知道武汉夏末秋初有多热是吧？东西时间放得长了，吃坏肚子很正常啊。

我迫不及待地打开论文，想看看作者们到底是怎么想、怎么做的。

你猜怎么着，他们还真的煞有介事地说：" 我们发现，8 月对腹泻的搜索有独特的增长，过去的流感季里没有观察到，与咳嗽的搜索趋势也不相符。虽然令人惊讶，但这一发现与最近的一项研究一致，那项研究确认胃肠道症状是新冠的特征之一，可能是现有相当一部分病人的主诉。"

然而，流感季原文用了复数，显得好像以前一直没有，2019 年真的很特别的样子。但图说明确写着，只是 2018 年 1 月到 2020 年 5 月。因此 8 月仅有 2018 年与 2019 年比较，根本不说明问题。

我详细看了看方法，作者声称用 WebPlotDigitizer 在百度指数的页面上提取 " 咳嗽 " 与 " 腹泻 " 的 " 相对搜索量 "（relative search volume），也没有具体解释什么是 " 相对搜索量 "。也许就只是 " 搜索指数 " 的数值吧，毕竟百度并不公布 " 绝对搜索量 "，但为什么不写明呢？

不大了解中国网络的外国研究者，会不会被 volueme 和 index 搞糊涂，不方便查验呢？

论文作者后来又在讨论搜索数据时承认：" 尽管此方法在复制时间序列时显示有效，但使用自动化工具（提取数据），生成数字图像，确实意味着提取的时间与数值是近似值。"

没想到，观察者网编辑一查验 " 百度指数 "，发现不管怎么理解所谓的 " 相对搜索量 "，" 咳嗽 " 的曲线形态是一致的，但 " 腹泻 " 的曲线形态完全不同，根本不存在 8 月的独特增长。这个问题怎么解释？还能认为只是近似值的问题吗？

蓝线为咳嗽，红线为腹泻

所谓显示 " 复制时间序列时有效 " 的参考文献，我看了，是纽约市 2012-2013 年流感季的推特数据，换了一个完全不同的平台就真的有效？事实就是打脸了。

就算按照论文作者的图表，" 腹泻 " 搜索有暴增（第一根虚线的左侧一小段），但同时 " 咳嗽 " 搜索在下降。假如真是新冠，必定存在大量有消化道症状、没有呼吸道症状的患者。

但我看了论文作者引用的那项 " 胃肠道症状 " 研究，这类患者在新冠病人中占多少？只有 3%！这个问题，他们又怎么解释？

不要以为论文引用了什么，就一定是站它的，其实可能只是浑水摸鱼。

" 咳嗽 " 搜索的问题，当然也不攻自破。只要看看作者自己的图片，就能发现，2018 年流感季的 " 咳嗽 " 搜索，迅猛增长发生的月份比 2019 年流感季更早。

更重要的是，每年流感季的时间、强度都不同，单把流感季的相关特征拿来比较，根本无法推断是否有新的疫情发生。更何况只有两年的比较。

论文作者在讨论搜索数据时，自己也坦承 " 不能给增长的原因下结论 "，但又 " 假设有广泛的社区传播 "，明明缺乏严密的逻辑、靠谱的证据，还要如此推论，这是学术还是话术？

剩下的就是停车问题了。论文作者说，"10 月和 11 月医院停车量增加了，‘咳嗽’搜索也增加了 "。普通人看了，都知道这是废话，这不是流感季理所当然会有的情况吗？

且不说进医院的人数，完全无法和特定疾病相联系，你根本无法知道一个人进医院是看什么病，就算真的都是呼吸系统疾病，又能说明什么问题呢？

看上去，2019 年的停车量比 2018 年相应月份的高，但论文的 " 结果 " 部分，只是描述了 2019 年的曲线形态，根本没有与 2018 年的具体比较，只是说 "2018 至 2020 年间，医院停车量总体呈增长趋势 "，难道自己也对仅仅两年的比较有点心虚？

其实一搜索就能发现，" 据武汉交警介绍，武汉市机动车保有量 ……2015 年年末达到 205 万辆；随后，每年以 30 万辆左右的速度递增，2019 年年底突破 330 万辆。" 停车量整体增长是很正常的。

还有更复杂的，武汉的轨道交通建设也热火朝天。2018 年 10 月 1 日，武汉地铁 7 号线、11 号线东段一期开通试运营。12 月 28 日，武汉地铁纸坊线正式开通运行。2019 年 2 月 19 日，武汉地铁 2 号线南延线开通，9 月 25 日，武汉地铁蔡甸线正式开通试运营，11 月 6 日，武汉轨道交通 8 号线三期开通试运营。

也就是说，两种出行方式的基本情况变化都很大。在具体某一时刻，你根本无法判断机动车用户、轨道交通用户的增减情况。

论文作者里好像有懂中文的呀，这些信息都查不到？是不是查到了也不敢说？因为本来证据就薄弱，如果再承认背景条件变动如此剧烈，这论文就没法看了。

其实论文的方法还有更多问题。作者声称搞了一个全面的武汉医院名单（a comprehensive list），但排除专科医院（如武汉亚洲心脏病医院），以及没有卫星图像的医院（如金银潭），选定了 6 家医院用于图像分析。

从一个 " 全面 " 名单，砍到只剩 6 家 ……6 家啊，这能有什么代表性？

论文作者在 2018 年 1 月 9 日到 2020 年 4 月 30 日几乎整整 28 个月里，总共只搜集到 111 张武汉卫星图片，提取出 140 张医院图片。分摊到每家医院，平均只有 23 张多，连每月一张都不到。因此，医院数据有长达半年、甚至一年以上的跳断。这又能有什么代表性？

论文作者解释，由于 " 缺乏商业价值 "，武汉的卫星图片比其他城市中心的相对较少，长时段存在多云天气与雾霾，甚至抱怨在向中国卫星公司获取数据时 " 遇到挑战 "…… 但关键问题，难道不是数据不理想，就不要硬写论文吗？

作者还选中武昌火车站、汉口火车站、华南海鲜市场作为方法有效性的验证（validation）。然而，这个验证对象的选择是错误的。

虽然中国医院往往 " 人满为患 "，但从实际的就医经验看，上午、中午、下午医院里的人数多寡、等候的时间长度，都是不同的。

论文作者在讨论时，其实提到了时刻问题，但出发点是规避高楼阴影，要用中午时的图片。然而，全部选择正午的卫星图片是做不到的，只能选接近的时刻。但这近似就有问题了，上午 11 点和下午 1 点，完全可能是两种出行模式。

如果数据对时间敏感，卫星又难以保证在每天同一时刻掠过目标上空，最需要验证的是，不同时刻获取的数据，能否真实反映当天医院客流量的相对多寡。但火车站和时刻表相关，海鲜市场也不是医院，这样的验证设置，毫无意义。

作者最后在 " 结果 " 的文字部分只提了验证地点的照片数量是 117 张，没有具体的分析，另在附图中出现了天佑医院与海鲜市场的比较。但令人惊奇的是，医院有三张图片，是 2018 年 10 月、2019 年 10 月与 2020 年 2 月，市场却只有 2019 年 9 月、2020 年 2 月两张图片。

且不说时刻的问题，单看这个日期选择，就是匪夷所思。2020 年 2 月已经是封城的特殊时期，根本没有比较的价值。如果作者想呈现特殊时期的情况，也应该同时提供与论文主旨—— " 早期疾病活动 " 相关（如 2019 年 12 月）的图片，看看 10 月与 12 月的差别，以及 2018 年相应月份的比较。（不过需要再次指出，即使如此，也是有问题的，就像前面所说，流感季每年会有数量与时间前后的波动，仅比对两年不合适。）

现在 2018 年市场图片又缺失，无从比较，光有 2019 年的图片有什么用？这五张图完全失去意义。

有人嘲讽说论文是本科水平，我觉得高中生都未必会这样展示所谓的 " 验证 " 吧？也许作者有什么难言之隐？

用卫星监测整体就医量，对于公共卫生可能有一定的参考意义，但在具体操作上有前面所述的种种困难与陷阱，可比较的数据不足，很难得到理想的结果。而且，在医院系统内部有迅捷的数字统计与上报系统的情况下，并没有优势。如果要针对单一疾病，在原理上就有根本缺陷——无法从整体中辨别出单一疾病，这点远不如医院系统的直接统计。

至于搜索的信息，同样有根本缺陷。某种症状的搜索量增加了，当然有些提示作用，但一种症状，往往对应许多种疾病，根本无从判断是哪种疾病的患者增加，更不要说判断有没有新疾病了。

那么，论文作者们为什么在承认诸多不足时，依然对自己的方法颇有自信，非写文章不可呢？我不揣测他们是否对中国有什么主观恶意，还是从论文分析。

他们在引言第二段里就说：" 数字流行病学和非传统数据流，如卫星图像和互联网搜索趋势，以前曾被用于呼吸道疾病监测 "。

听着好像很厉害啊，早有验证呢。但看看这句话后面的两篇参考文献。

一篇是《H7N9 流感与数字流行病学的重要性》，其实也不算是论文，是发在《新英格兰医学杂志》上的 "perspective"，可以称为 " 热点透视 "。

但看下来，这 " 透视 " 里也没多少有价值的独家信息。2013 年 3 月 31 日，中国官方向 WHO 通报发现了 H7N9 流感，" 透视 " 作者们的工作，只是看了下 3 月 31 日后，推特数量、中英文报道的数量、新病例和新增死亡的数量。

这只是爆发后的 " 数字流行病学 "，又不是没发现 H7N9 时的 " 早期疾病活动 "，和新论文没什么关系嘛。

疾病曝光后，相关新闻、帖子数量当然增加，随着新增病例归零，舆论热度也消退，拍拍脑袋都能想到。

另一项工作是从微博上找信息，比如附在文中的图片，是 4 月 3 日流出的病例，作者的意思是要重视这种社交媒体上的信息。但当时官方都已经通报，这病例又能说明什么问题呢？和早期监测、预警也无关。

我是搞不懂为什么要引用这样的文献，一看作者，很眼熟啊，这 John S. Brownstein 不也是新论文的作者吗？

再看第二篇参考文献《利用从高分辨率卫星图像获取的医院交通数据监测疾病趋势》。稍微有点干货了，大意是在墨西哥、智利、阿根廷通过医院的卫星图片，经过一番操作，最终拟合出流感样病例在病人总数中的比例，与停车数量的趋势呈现一致性。

这篇参考文献的主要作者也有 John S. Brownstein，另一个 Elaine Okanyene Nsoesie，也是所评哈佛论文的作者之一。

自己引用自己，玩得挺溜。这当然不犯法，但看上去，给人的感觉好像这套方法就是你们小圈子里在玩啊。前面提到的那些根本性的障碍，在拉美的研究里，为什么就 " 神奇 " 地解决了呢？作者们是不是要好好反思下基本原理、数据获取与处理的方法，甚至是否存在更严重的学术问题？

喜欢自引自 high，还非要硬着头皮写论文，难怪论文公开后饱受批评，只有政客和西方媒体在吹捧；也难怪世卫组织卫生紧急项目负责人迈克尔 · 瑞安会说：" 重要的是不要过多推测 …… 因为本身并没有证据表明实际发生了什么 …… 世卫组织将不会基于此类研究展开推测，因为其不会在提供支持和跟踪疾病上产生帮助。"

免责声明：如果本文章内容侵犯了您的权益，请联系我们，我们会及时处理，谢谢合作！

哈佛新冠论文的漏洞，你以为就那么几条？

马上注册，结交更多同城好友，享用更多功能！

个人中心