为科学提供一个去中心化的数据共享空间

2022-05-03 436 其它文章

科学数据的语料库是分散的、受访问控制的,它们的迅速增长已经超出了中心化服务的维护能力。点对点技术的最新发展使得建立一个对所有人开放的永久科学记录档案成为可能。前期,DAOrayaki社区已经编译系列DeSci的文章,在本系列文章中,我们将深入探讨去中心化文件存储网络的前沿技术,并为协作式去中心化科学生态系统提供潜在的发展路径。

知识到底该为谁所拥有?

历史上,人类获取知识的边界,一直受到观察工具和高质量数据的限制。如今我们所拥有的,对自然界各领域产生飞跃式理解的能力/权力,之前只属于少数特权阶层。

托勒密用浑天仪和纸莎草纸来记录人类所理解的地球边界,这个边界在过去的一千年里没有受到任何挑战。伽利略使用凸透镜和羊皮纸,用一个像被锁定在宇宙中的神一样的球体,来解释宇宙的边界。哈勃利用胡克望远镜的力量,为所有的人类知识划定了一个无限扩大的地平线,在一个一切皆有可能的宇宙里,给后来的真理探求者留下了新的挑战。

为科学提供一个去中心化的数据共享空间

分布式知识,解剖学板块。1857 年 JG Heck

哪怕直到最近,仍旧只有那些属于独家学者俱乐部的人,才能获得应对科学领域重大挑战所需的仪器和数据宝库。而今天,开放式协作和数据共享实践的做法,能够使天文学和物理学在未来取得更大进步的情况成为可能。这些问题太大,复杂的模型太多,工程挑战的难度太高,即使是最开明的人也无法单枪匹马解决。我们对宇宙范围所累积的理解力会更加扩大,而高质量的数据集,以及配合数据集所使用的工具,会对我们每个人、每个地方越来越开放。

富于数据,贫于智慧

虽然天文学界已经为合作性的开放科学实践制定了标准,但许多领域仍然根植于“基于声誉和自我职业发展”的传统做法。对许多人来说,我们很难知道如何才能超越这种对抗性根深蒂固的学术利益。然而,当今现代科学所面临的现实挑战,将迫使它不可避免地引发一场文化革命,这种范式的转变已经随着今天开放科学数据共享、期刊和自由软件的出现而发生。如今我们在自然世界的科学观察中所获得的数据量成爆炸式增长,这种增长已经超过了传统机构基础设施所能提供的,用于维护、存储和筛选不断扩大大量原始知识工具的最大承载能力。

关于人类健康、经济活动、社会动态和宇宙以及我们对它的影响的,数千PB的宝贵数据和观察结果被储存在过时的存储系统中。这些数据无法被搜索引擎访问,存储在只有少数人知道的神秘模式中,而且可能永远都不会被加以使用。据估计,20世纪90年代收集的原始科学数据中,有超过80%的数据由于过时的技术和不完善的档案基础设施而永远的消失。哪怕是今天,从一篇论文发表三年后开始算起,能找到一个数据集的可能性也是以17%的比例呈逐年下降趋势。故意限制科学数据访问的做法限制了我们社会的创新速度。

去中心化的文件存储协议通过内容可寻址的数据、可编程的数据存储激励机制、出处追踪、抗审查以及随着全球采用而扩展的带宽,为这种失败提供了解决方案。由这些功能驱动的点对点式的科学数据公域,可以提供一个有弹性的数字结构,让去中心化的社区会围绕当今最关键和最具挑战性的问题保持认知的统一。

点对点内容网络简史

对等文件共享与互联网一样古老。事实上,我们所知道的互联网的前身 ARPANET 在 1969 年首次启动时,严格来说就是一个点对点网络。网络退化的弹性、高双向带宽、信息冗余、资源聚合和内在的参与性,是使分布式对等网络成为早期互联网架构师和工程师首选设计的主要原因。这种直接信息共享的多次迭代出现在互联网的短暂历史中。

1973年公钥加密学的出现标志着身份协议的开始,并通过巧妙的密钥对签名系统对内容进行可验证。网络上的用户第一次可以信任由密钥加密的信息包,前提是它是由已知身份公开发布的密钥的唯一解密。后来,Ralph Merkle 在 1979 年发明了 Merkle 树,作为一种跟踪信息包来源的方法,为 git 和 svn 等版本控制软件铺平了道路。公钥密码技术与默克尔树数据结构的综合,推动了新的创新,例如区块链、分布式计算和共识机制的出现,这些机制增强了攻击的复原力,并最大限度地减少了分布式网络中信息碎片化问题。

分布式网络最著名的例子之一,Napster,通过集中式索引服务器连接对等点,该服务器后来在2001年Metallica因侵犯版权提起诉讼后被当局关闭。分布式哈希表 (DHT) 的引入彻底改变了点对点网络的设计,解锁了更高层次的去中心化方式,并使网络在内容审核跟审查上更具弹性。DHT 最初用于帮助在对等网络上各节点位置的相互记忆,早期的互联网时代,这种方式会允许点对点网络以真正去中心化的方式扩展,因为它们不需要像 Napster 那样依赖中心化服务器。极受欢迎的点对点网络 BitTorrent 是最早使用 DHT 技术的网络之一。

为科学提供一个去中心化的数据共享空间

比特币代码库指纹

2009年,比特币进入了人们的视野。虽然在比特币之前的点对点网络允许用户方便快捷地相互传输数据,但它们并没有被设计为加密可验证交换的防篡改记录。只有当提交交易的节点证明他们在短时间内完成了一定数量的计算工作时,事件才能附加到比特币分类账中。比特币是第一个具有单一全局状态的点对点网络实例,该状态为网络共识的真相做了新的定义,对代表经济价值的加密代币进行转移。

用于验证分布式网络中事件的加密证明概念为加速点对点技术的创新铺平了道路。星际文件系统 (IPFS) 是一种点对点文件共享协议,它综合了分散式计算(如 DHT 和默克尔树)的关键进展和加密证明,为在互联网上永久记录存档提供了基础层。IPFS 使信息真正属于网络公共资源成为可能,IPFS通过对内容的修订,对针对数据完整性攻击的矫正,以及对集中式服务提供商强加的带宽瓶颈的修正,促使它具有内在抵抗地理审查具的能力。

云存储的现状

21世纪初,集中式云服务提供商的出现,成为互联网上内容的把关者。今天,云存储市场被极少数玩家所主导。根据Canalysis(2020年)的估计,亚马逊、微软和谷歌控制了一半以上的市场,而亚马逊一家就控制了三分之一的市场。亚马逊通过解决早期互联网的关键可扩展性问题,达到其近乎垄断的地位,但也正是如此,亚马逊也创造了一系列新的问题,所有这些问题都源于集中化。主要问题是资源分配效率低下,数据在孤立的存储库中分散,缺乏隐私和安全,以及不必要的高成本。总的来说,云服务提供商控制着他们所管理的所有存储数据,使他们成为获取知识的仲裁者。

为科学提供一个去中心化的数据共享空间

大型科技公司所采用的控制模式分类

亚马逊最近开始为科学家提供诱人的数据存储交易,以进一步增加其内容护城河的规模和深度。分析师推测,如果亚马逊能够从工业界、学术界和政府研究人员那里汇编大量高质量的互操作数据集,他们的服务价值可能会变得更高。例如,艾伦大脑观察站已与亚马逊达成协议,在其云端存储数10TB的宝贵神经成像观测结果。

虽然亚马逊为数据上传提供了免费的存储,但从他们的服务器出口往往会产生高额的费用,有时会将数据捕获在他们庞大的计算中心内,并使亚马逊成为公共资助研究的实际所有者。社区的反响似乎已经让亚马逊考虑为 "合格的 "研究机构减免每月15%的云存储费用。看来,亚马逊已经从科学出版业吸取了经验,将知识的获取作为其日益扩展的云计算商业模式的另一个有利可图的组成部分。即便如此,一股对抗集中化趋势的逆流正在形成,并有望打破大型科技公司在过去20年中所建立的控制权基石。

期待一个更加开放性的网络

作为这股逆流的一部分,IPFS促使了许多为去中心化网络提供动力的其他技术创新的出现。在这一系列文章中,我们涵盖了主要的去中心化数据存储协议,并讨论了它们作为去中心化科学数据公共资源的底层结构的潜力。我们对IPFS背后的历史、机制和流行的应用进行了深入的探讨。

引用

  1. Allen Brain Institute. (2018, August 9). Neuroscience Data Joins the Cloud. Retrieved November 21, 2021, from https://alleninstitute.org/what-we-do/brain-science/news-press/articles/neuroscience-data-joins-cloud

  2. Amazon. (2018, July 12th). New AWS Public Datasets Available from Allen Institute for Brain Science, NOAA, Hubble Space Telescope, and Others. Retrieved November 12, 2021, from New AWS Public Datasets Available from Allen Institute for Brain Science, NOAA, Hubble Space Telescope, and Others

  3. Canalysis. (2020, April 29). Global cloud services market Q1 2021. Retrieved November 27, 2021, from https://www.canalys.com/newsroom/global-cloud-market-Q121

    Cocks, C. (2001, December). An identity based encryption scheme based on quadratic residues. In IMA international conference on cryptography and coding (pp. 360–363). Springer, Berlin, Heidelberg.

  4. Jocelyn Goldfein and Ivy Nguyen. (2018, March 27). Data is not the new oil. Retrieved 20 November, 2021 from Data is not the new oil — TechCrunch
  5. Merkle, R. C. (1987, August). A digital signature based on a conventional encryption function. In Conference on the theory and application of cryptographic techniques (pp. 369–378). Springer, Berlin, Heidelberg.

  6. Paratii. (2017, October 25). A Brief History of P2P Content Distribution, in 10 Major Steps. Retrieved November 20, 2021, from A Brief History of P2P Content Distribution, in 10 Major Steps | by Paratii | Paratii | Medium
  7. Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.

    Vines, T. H., et. al. (2014). The availability of research data declines rapidly with article age. Current biology, 24(1), 94–97.

  8. Wiener-Bronner, D. (2013, December 23). Most Scientific Research Data From the 1990s Is Lost Forever. Retrieved November, 13, 2021, from Most Scientific Research Data From the 1990s Is Lost Forever — The Atlantic

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥6,103.46亿
2 欧易OKX欧易OKX ¥2,308.31亿
3 火币全球站火币全球站 ¥173.00亿
4 抹茶抹茶 ¥372.68亿
5 芝麻开门芝麻开门 ¥420.59亿
6 库币库币 ¥154.85亿
7 Coinbase ProCoinbase Pro ¥174.87亿
8 bitFlyerbitFlyer ¥6.87亿
9 BitMEXBitMEX ¥0
10 BitstampBitstamp ¥18.39亿