正是因为大数据的广泛存在,大数据问题的解决非常具有挑战性。 它的广泛应用促使越来越多的人关注和研究大数据。 以下是大数据发展中的一些代表性事件。
2005年,Hadoop项目诞生了。 Hadoop最初源自Google的编程模型包MapReduce,该包最初只与Web索引有关,并由Apache软件公司作为分布式系统基础设施引入。 Hadoop可以帮助用户在不了解分发底层细节的情况下开发分布式程序,并充分利用集群的强大功能进行高速计算和存储,从而以可靠、高效、可扩展的方式处理数据。 Hadoop框架的核心设计是HDFS和MapReduce,HDFS为海量数据提供存储,MapReduce为海量数据提供计算。
2008年底,“大数据”得到了美国一些知名计算机科学研究人员的认可,行业组织“计算社区联盟”发表了一篇关于大数据计算的有影响力的报告:在商业、科学、社会上创造革命性的突破。 事实上,大数据对新用途和新见解非常重要,而不是数据本身,这一事实改变了人们对它的看法。 计算社区联盟是第一个提出大数据概念的人。
2009年年中,美国**通过了数据发布会政府**向公众提供各种**数据的方式。 ** 大于 4这450,000个数据集用于确保许多智能手机应用程序可以跟踪信息,包括航班信息,产品召回和特定地区的失业率,从而刺激了肯尼亚和英国的类似举措。
2010年2月,肯尼斯·库克(Kenneth Cooker)在《经济学人》(The Economist)上发表了一份长达14页的大数据报告《数据,数据无处不在》。 库克在他的报告中说:“世界拥有难以想象的大量数字信息,而且它正在以非常快的速度增长。 从经济学界到科学界,从第一产业界到艺术领域,人们都以多种方式感受到了这种巨大信息的影响。 科学家和计算机工程师为这种现象创造了一个新术语:“大数据”。 因此,库克成为最早看到大数据时代趋势的数据科学家之一。
2011 年 2 月,IBM 的 Watson 超级计算机每秒扫描和分析 4 TB(约 2 亿页文本),在美国著名问答电视节目“Jeopardy”中击败两名人类参赛者,赢得了冠军。 后来,《纽约时报》将这一时刻视为“大数据计算的胜利”。
2011年5月,全球知名咨询公司麦肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新前沿》,这是第一次有专业机构全面引入和设想大数据。 根据该报告,大数据已经渗透到当今的每个行业和业务功能,成为重要的生产要素。 海量数据的挖掘和使用预示着新一轮生产率增长和消费者过剩浪潮的到来。 该报告还提到,“大数据”源于数据生成和收集的能力和速度的急剧提高——随着越来越多的人、设备和传感器通过数字网络连接,这彻底改变了生成、传输、共享和访问数据的能力。
2011年12月,工业和信息化部发布《物联网“十二五”规划》,提出将信息处理技术作为四大重点技术创新项目之一,包括海量数据存储、数据挖掘、图像智能分析等,这些都是大数据的重要组成部分。
2012年1月,大数据成为瑞士达沃斯世界经济论坛的主题之一,并发布了《大数据,大影响》报告,宣称数据已成为一种新的经济资产类别,就像货币或**一样。
2012年3月,奥巴马在白宫启动了大数据研发计划,标志着大数据已成为时代的重要特征。 2012年3月22日,奥巴马宣布,大数据领域的2亿美元是大数据技术从商业行为上升到国家科技战略的分水岭。 国家数字主权体现了对数据的拥有和控制。 数字主权将是继边防、海防、防空之后,大国又一个发挥的空间。
2012年4月,美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。 在美国经济持续不懈的背景下,Splunk 首日交易表现突出,首日涨幅超过一倍。 Splunk成立于2003年,是大数据监控和分析服务的领先软件提供商。 Splunk的成功上市,推动了资本市场对大数据的关注,同时IT厂商也加速了大数据的部署。
2012年7月,联合国在纽约发布了一份关于大数据的报告,总结了各国如何利用大数据更好地服务和保护其人民。 这 *** 体现了个人、公共部门和私营部门在数据生态系统中各自的角色、动机和需求。 例如,通过对关注和更好服务的渴望,个人提供数据和众包信息,以及对隐私和选择退出权的需求; 公共部门提供统计数据、设备信息、健康指标以及税收和消费者信息,以改善服务和效率,以及对隐私和选择退出权力的需求。 ** 报告还指出,当今人们可获得的大量数据资源,无论是新旧数据资源,都可用于以前所未有的方式实时分析社会人口统计数据。
2014年4月,世界经济论坛发布了以“大数据的回报与风险”为主题的第13版《全球信息技术报告》。 根据该报告,未来几年各种ICT政策将变得更加重要。 全球大数据产业日益活跃,技术演进和应用创新的加速发展,使各国逐渐意识到大数据在促进经济发展、改善公共服务、增进人民福祉、甚至保障美好生活等方面的重要意义。
2014年5月,白宫发布2014年全球“大数据”**研究报告《大数据:抓住机遇,保护价值》。 报告鼓励利用数据来推动社会进步,特别是在市场和现有机构不支持这种进步的领域; 需要框架、结构和研究来帮助保护美国人对保护个人隐私、确保公平或防止歧视的坚定信念。
2016年3月,我国《“十三五”规划纲要》指出,落实国家大数据战略,以大数据为基础战略资源,全面推进大数据发展,加快数据资源共享开放开发应用,助力产业转型升级和社会治理创新。 全面推进重点领域大数据高效采集和有效整合,深化高质量数据与社会数据的关联分析与综合利用,提升宏观调控、市场监管、社会治理、公共服务的精准度和有效性。 加快海量数据采集、存储、清洗、分析挖掘、可视化、安全隐私保护等领域关键技术研究。
2018年12月,中国召开了“全国工业和信息化大会”。 会上提出,将大数据与云计算、人工智能等前沿创新技术深度融合。 大数据、云计算、人工智能等前沿技术的出现和发展,都源于社会生产方式的进步和信息技术产业的发展,前沿技术的融合将使超大规模计算、智能自动化和海量数据分析成为可能,在短时间内完成高复杂度和高精度的信息处理。
大数据是一场革命,它将改变我们的生活、工作和思维方式。 海量新数据**带来的量变,引起了学术界、商界和政界的高度关注。
2 大数据技术的发展
大数据技术是新一代技术和架构,它以低成本和快速的采集、处理和分析技术从各种超大规模数据中提取价值。 大数据技术不断涌现和发展,让我们处理海量数据变得更容易、更便宜、更快捷,成为使用数据的好助手,甚至改变了许多行业的商业模式
1)向大数据采集和预处理方向发展。这个方向最常见的问题是数据的多源性和多样性,这导致了数据质量的差异,严重影响了数据的可用性。 针对这些问题,许多公司推出了各种数据清洗和质量控制工具(例如IBM的Data Stage)。
2)向大数据存储和管理方向发展。这个方向上最常见的挑战是大型存储规模、复杂的存储管理,以及平衡结构化、非结构化和半结构化数据的需求。 分布式文件系统和分布式数据库相关技术的发展正在有效地解决这些问题。 在大数据存储和管理方向上,大数据索引和查询技术的发展,实时和流式大数据存储和处理,值得我们特别关注。
3)大数据软硬件架构。大数据计算的核心原则之一就是把握软硬件,从具体应用入手,精心选择软硬件架构实现,并在运行过程中持续协同优化。 在当今的大数据应用中,最成功和最流行的软硬件协同优化示例是基于神经网络的深度学习系统。 业内领先的互联网公司已经建立了大型车队,致力于视觉和语音的深度学习。 然后,在系统运行过程中,对软硬件进行优化,提高学习系统的效率。 英特尔公司资助参与 GraphLab 和 Petuum 的开源系统。
4)大数据计算模式的方向。由于大数据处理需求的多样化,出现了多种典型的计算模式,包括大数据查询和分析计算(如HIVE)、批处理计算(如Hadoop MapReduce)、流计算(如Storm)、迭代计算(如Haloop)、图计算(如Pregel)和内存计算(如HANA),这些计算模式的混合计算模式将成为满足大数据多样化需求的有效手段数据处理和应用。
5)大数据分析与挖掘方向。在数据量快速扩大的同时,需要进行深入的数据分析和挖掘,对自动化分析的要求也越来越高,涌现出越来越多的大数据分析工具和产品,比如用于大数据挖掘的R Hadoop版本和基于MapReduce开发的数据挖掘算法。
6)大数据可视化分析。通过可视化帮助人们探索和解读复杂的数据,有利于决策者挖掘数据的商业价值,进而有助于大数据的发展。 许多公司也在进行研究,试图将可视化引入到他们不同的数据分析和显示产品中,各种潜在的相关产品将继续出现。 可视化工具tabealu的成功推出反映了对大数据可视化的需求。
7)大数据安全。当我们使用大数据分析和数据挖掘来获取商业价值时,黑客很可能会攻击我们并收集有用的信息。 因此,大数据的安全性一直是企业和学术界非常关注的研究方向。 限制数据呈现的文件访问控制、底层设备加密、匿名化保护、加密保护等技术正在最大程度地保护数据。
《大数据知识丛书》由范崇军教授团队撰写,每篇文章没有严格的语境。 **请注明本文出处)。