资料来源:深度技术
电子表格软件已经深入到我们日常工作的各个方面。
其中最好的是微软的Excel,无论是WPS还是Numbers都无法撼动这个有35年历史的软件。但是最近,它的一些功能困扰了一些科学家。
藏在基因名称中的“隐患”
人类基因组有23对染色体,包含大约30亿个碱基对,一些碱基对组成大约20,000到25,000个基因。在科学研究中,学者需要给每个基因起一个特定的名字,以便快速定位。这些名字通常由字母和数字组成。
然而,在过去一年左右的时间里,大约有27种人类基因被重新命名,而Excel是这一系列行为的“始作俑者”,它将这些基因名称误读为日期格式,并直接将其修改为默认格式。
这种事情并不新鲜,我们每个人都在某种程度上遇到过类似的情况。
然而,当Excel误读了一些关键数据,科学家们只是用这些数据进行分析,甚至是临床试验,这可能会产生不可挽回的严重后果。
当遇到类似情况时,科学家必须手动设置单元格格式来恢复数据,但不可避免地会有遗漏。根据2016年进行的一项调查,这种“漏洞”非常普遍,3597份样本论文中约有五分之一受到影响。
英国Quadram研究所的系统生物学家dezs莫多斯说,微软Excel把基因名称的日期读错了,“这真的很烦人。”他的工作将包括分析新测序的基因数据。他说,这样的电子表格“错误”非常普遍,电子表格是科学家分析数据的首选。“这在解决计算问题时非常方便。”。
没有简单的解决方案来修复这种“Bug”。Excel不会关闭自动修改格式的开关。为了避免自动“转换”,它只能重置整列单元格的数据类型。然而,这种修复是一次性的,一旦其他人查阅相关数据,问题就会再次出现。
改名,是为了彻底解决问题
国际人类基因组组织(HUGO)下属的HGNC(基因命名委员会)最近发布了一份关于基因命名格式的新指南,其中包含“影响数据处理和索引的符号”。从现在开始,人类基因命名将避免Excel的“Bug”。例如,3月1日将成为3月F1;九月一日变成九月一日。
这不是一个容易的决定,HGNC的权威来自科学家的共识。HGNC必须及时通知受更名影响较大的团体,从更名到日常使用将是一个缓慢的过程。
图|国家生物技术信息中心(NCBI)已经更新。在此之前,在遗传学的早期,基因的命名是非常随意的,这经常反映出科学家强烈的个人偏好,比如臭名昭著的“刺猬索尼克”(sonic sonic),INDY(我还没死)等等。
图|索尼克在左边,索尼克在右边。但是现在,HGNC已经牢牢掌握了制定命名规则的权利。在他们的规则下,科学家不再能充分发挥基因命名的作用。基因名称不能使用上标或下标,但只能包含字母和数字,不能由名称或单词组成,尤其是一些攻击性的单词。
为了避免搜索中的歧义,他们将CARS基因更名为CARS1,WARS WARS1等等。
HGNC协调员Bruford说,这是该组织第一次修改软件问题的基因名称和命名规则。到目前为止,收到的反馈总体上是积极的。
照片|生物学家的回应,但布鲁福德也提到他们听到了一些有争议的声音:为什么选择给人类基因重新命名,而不是修复Excel的“臭虫”?为什么整个遗传学社区都输给了一家商业公司?
微软对此不予置评。
然而,布鲁福德解释说,Excel不值得改变所有的产品功能,我们只占微软庞大用户群的一小部分。如果微软做出改变,将会影响更多的人。
最后,她说,与永恒的人类基因相比,卓越只是沧海一粟。