本篇文章4559字,读完约11分钟
当遗忘成为例外时,被机器遗忘也是一种幸福。发明许多技术的核心目的是为了记忆,因为人们的记忆力很差。你忘了,黑客不会忘记,数据很长,而且会永远流传下去。在发表文章之前,必须缴纳版面税。今天,我们应该尝试删除帖子,忘记的权利成为一个新的问题。它过去侧重于如何记住问题,但现在它为工程师提供了一个新的开发机会,让他们专注于如何永久消除数据。
作者:何,中国信息与通信研究院云计算与大数据研究所所长
中国信息与通信研究院云计算与大数据研究所所长何做了题为《大数据2018前瞻》的报告。以下是一份发言记录:
大数据饱受成长之苦
从2011年到现在的大约七年时间里,大数据一直饱受成长之苦。欧盟(European Union)在5月实施了gdpr通用数据保护规则,其核心是个人隐私数据保护,要求用户明确同意授予数据移动权。最近,大数据正在扼杀,facebook正面临困难,包括今天的头条新闻。七年来,大数据必须进行定向调整。
这是另一个三角困境。当许多目标在技术上被追求时,它们之间很容易发生冲突。特别是在数据方面,个人隐私、国家安全和便利不能兼得,只能选两个。在2013年,奥巴马说不可能享受100%的安全和100%的隐私而没有任何不便,所以我们必须做出选择。大数据也需要做出选择,当做出两个选择时,会发生一些调整。
这些事件意味着什么?从短期来看,这表明一些大数据应用已经真正落地。如果大数据没有进入用户形象和营销领域,这些事情就不会发生。这也证明了大数据已经被成功应用,所以问题可能会出现。几年前,当我从事云计算时,我说过可靠性不好。我刚才说人们开始广泛使用云计算,否则他们不会关心这些问题。从中期来看,保护个人隐私必须是未来三年或更长时间的首要任务,整个行业必须联合起来制定保护用户隐私的规则,这也需要适当的技术手段来提供支持。从长远来看,最近一系列事件的爆发是否意味着已经使用了20多年的自由互联网模式已经终结?恐怕这是一个更大的问题。免费模式是为了方便用户服务而交换用户数据。
作为回报,大数据行业是理性的
根据个人判断,这个行业的发展需要调整和改变。过去七年来,我们一直强调技术和开发,并在下一步更加关注合规性、隐私保护和安全性。在第二阶段,任何行业开发都必须关注合规性、安全性和隐私问题,并在早期阶段关注技术和开发。现在,它正从高估大数据的影响转变为低估大数据的影响,因为人们总是高估技术的短期影响,低估技术的长期影响。我们即将迎来低估大数据长期影响的阶段。现在我们正进入理性回报阶段,行业也在理性回报。以前高估大数据的价值更为合理,而要弥补过去没有受到太多关注的隐私问题,需要大约3年的时间。大数据将在2021年左右迎来新一轮的黄金发展。
从市场角度来看,我们将继续保持小规模快速增长的趋势。过去几年大数据的主要应用场景是互联网,未来几年的核心是大数据与传统产业和实体经济的深度融合。中国共产党第十九次全国代表大会的报告明确指出,我们必将迎来如何在传统行业更好地利用大数据的过程,因为传统行业更容易赚钱。
从技术角度来看,开源引领着各行各业,大数据也不例外。今天上午的报告还谈到了实现分布式在线分析,下一步是实现分布式在线处理。olap/oltp的集成是一个新趋势。随着产业的发展和完善,意味着产业间的分工越来越细化,产业间的合作将越来越麻烦。因此,我们的大数据产品和技术需要标准化和模块化。因为不可能大量堆积,所以操作和维护需要自动化才能被很好地理解,并且系统变得越来越大。机器产生的东西只能由机器来解决,大数据产生的操作和维护问题只能由大数据产生的自动化操作和维护来解决。
集装箱化,今天的大数据也需要通过集装箱的概念来包装和交付。几年前,人们发现软件开发和交付与环境的关系过于密切。如今,大数据也是一个问题。大数据迁移和环境配置之间的关系过于紧密,因此我们应该开发类似于容器的技术。随着摩尔定律的减速,需要越来越多的专用硬件来代替通用硬件来解决问题。用于特定场景数据处理的专用硬件或软硬件结合将是一个重要的发展方向。
从算法的角度来看,算法的透明性将成为一个需要关注的问题。随着数据越来越多,数据越来越开放,有必要打破算法的黑箱,解决算法的歧视、杀戮和流行。如果算法是一样的,特别是金融市场会引起算法共振或算法流行。开放式算法是一个必须考虑的问题。我们刚刚讨论了网络中立的问题。算法应该是中性的吗?算法应该是透明的吗?算法应该被监督吗?我想我们需要它。
就资产而言,我们知道数据是过去几年的资产,市场教育已经完成。但是如何将数据转化为资产仍然是一个迷。在过去的几年里,仅仅通过金融手段将数据转化为资产是不够的,还需要更多的技术支持。在接下来的三年里,我们需要学会如何将数据转化为资产,不仅是通过资本和管理,还包括新技术、创新算法、创新技术和创新模型。
从流通的角度来看,我们仍处于男人耕田、女人织布的时代。根据调查,大数据企业使用的数据有50%是由他们自己或隔壁的人生成的。据说大量的数字是资产,但它们并没有成为资产。我们说大数据是一种商品,但大数据还没有变成商品。我们只知道大数据是有价值的,但如何传播它仍处于早期阶段,这需要大量的技术创新和理论创新。一些30年后获得诺贝尔经济学奖的人将会做这项工作,因为他们在数字经济时代需要数字经济学家。今天的经济学更多的是基于工业经济的假设。当它出现时,它讨论工厂、工人和产品,并用金钱衡量价值。这些是工业时代的想法。数字时代需要数字时代的经济学家来解决数据流通中的理论和方法问题。在从农产品贸易到数字产品贸易的转折点,现在还不清楚如何进行数据贸易,我们正在探索。有必要实现从工业经济向数字经济的转变。
就价值而言,我们需要新用户和新价值。数据保护更像是隐私危机。我们说大数据就是石油,石油经历了危机,爱迪生危机。煤油的主要用途是照明。爱迪生发明电灯后,石油危机了吗?油只用于照明,但电灯来了。后来,石油的提炼技术得到了改进,生产出了汽油,汽油在电力方面得到了更广泛的应用。如今,大数据主要是为人们服务的,而大数据的应用分析和处理不可避免地会给人们带来隐私危机。只要你知道的是隐私,你不知道的就不是隐私。任何能够发现和处理它的人最终都会落入用户隐私的范围,这将不可避免地导致隐私危机。我们需要新的模型和创新来扩大大数据的范围和价值。不仅对人,而且对物联网、工业和其他行业都是如此。在过去的几年里,更多的人工生成的数据被处理。
从风险的角度来看,必然会有风险,数据就是资产,资产就是数据。人类财富正在被虚拟化和数字化,这意味着风险正从物理世界和现实世界转移到虚拟世界和数据世界。哪里有风险,哪里就有保险。中国信息通信技术研究院和PICC推出云计算保险已有四年,希望与业界合作,研究如何为数据购买保险,以及如何通过金融手段解决数据风险问题。
理想情况下,一切都是数据,数据是兄弟,我们需要联系。单个孤岛数据没有什么价值,所以我们必须传播它。我们是相连的时代,流通产生新的价值。现在重要的不是单体,而是单体和其他之间的联系更加重要。数据的价值并不取决于数据本身是什么,而是取决于数据与其他数据之间的关系、数据在数据世界中的位置。连接比数据本身更重要,我们必须连接。我们只有一个核心目的,那就是开放和共享,连接和传播数据是一个长期的目标,所以我们需要和在座的各位一起工作。
数据未来会走向何方?
我们欢迎摩尔定律变老的时代。当摩尔定律放缓时,它将给整个行业带来翻天覆地的变化。我们需要改变传统的思维方式。过去,计算资源被认为是廉价的,没有什么可浪费的。今天,计算资源变得越来越昂贵,因为摩尔定律变慢了。过去,这个行业的增长率非常稳定,有节奏感,因为摩尔定律可以让你什么都不做就稳定增长。今天,当摩尔定律变慢甚至停止时,这个行业肯定会向前发展,但是我们不能仅仅依靠摩尔定律,我们必须依靠软件。我们需要更新软件架构。最近,许多新软件架构出现的原因之一是底层计算资源不再满足摩尔定律的增长率,因此我们需要创新软件和架构的设计。
改进的算法。我以前没有太注意算法的改进,因为算法改进的成本可能比购买一个摩尔定律芯片要高。与其改进算法,不如再买一个芯片。今天,算法必须改进,因为下面的计算资源越来越贵。算法优化已经成为未来几年非常重要的发展方向,包括大数据处理。因为底层资源再也浪费不起了。
硬件。过去,通用硬件非常广泛,而且越通用,价格就越低。缺点是它越普通,性能越差。必须优化硬件性能,而不是常规硬件。面向数据的软硬件结合是一个重要的发展方向。
当大数据遇到区块链时,它们都被用来处理数据,另一个是扩展数据的内部核心,并将结构扩展到更多的数据结构。数据过去是信息,但现在是价值。海量数据(603138,诊断单元)提高了计算性能。块链理论针对关键数据,其主要核心目的是防止篡改,并且还有计算模式。将一件事分配给一个以上的人,区块链希望一个以上的人重复做一件事,这有利于防篡改。一个是服务器积累的,一个是p2p网络积累的,一个是信息积累的,一个是价值积累的。大数据处理需要向从事大数据工作的人支付报酬,因为激励是外部的。发行货币时可以内置区块链,而不是通过外部数据。大数据宣传的口号是相信数据,区块链的口号是相信数学。
大数据遇到人工智能。大数据使数据可视化,因为计算机可以理解它,但人们却不能理解它。计算机视觉是因为人们能理解它,但机器不能。一个去左边,另一个去右边。在过去的几年里,有人主张大数据提倡相关性而不是因果关系,有必要回到无知的原始社会。机器学习可以证明数据之间的相关性,但它不能解释为什么机器学习会有这样的结果。证明有关系,但不能解释为什么有因果关系。
当遗忘成为例外时,被机器遗忘也是一种幸福。发明许多技术的核心目的是为了记忆,因为人们的记忆力很差。你忘了,黑客不会忘记,数据很长,而且会永远流传下去。在发表文章之前,必须缴纳版面税。今天,我们应该尝试删除帖子,忘记的权利成为一个新的问题。它过去侧重于如何记住问题,但现在它为工程师提供了一个新的开发机会,让他们专注于如何永久消除数据。
我们做了大量的数据,只关心数据从哪里来,在我们用完之后数据去了哪里?大数据基本上处于“冷”状态,当它用完时就会完成,80%的数据在3个月后会被忽略。Gdpr私人数据“将会灭绝”,而区块链数据的价值“将永远存在”,因为为了防止篡改,数据世界的价值越高,它的寿命就越长。有些数据会莫名其妙地消失,我不知道去哪里,因为媒体的生命很短暂。我们的磁盘有几十年的长寿命。几千年后的今天,人们如何找到存储的数据,如何打开word文档?他们去哪里考古,这一代人所谓的大数据,他们在哪里发现它?
谢谢大家!
(本文根据现场速记整理)
评论|陈力、卢婷
编辑|凌霄
本文转载自《何。本文由平台/作者授权的金融网站发布。请不要擅自转载。如果你对干货有意见或文章,你愿意为投资者提供最权威和专业的参考意见。无论你是权威专家、金融评论家还是智囊团,我们都欢迎你积极投稿,进入金融网站的著名栏目。
电子邮件地址:mingjia @ jrj,电话号码:010-83363000-3477。期待您的加入!
标题:何宝宏:大数据正在遭遇成长的烦恼
地址:http://www.hhhtmd.com/hqzx/16410.html