分享好友 最新动态首页 最新动态分类 切换频道
大数据的概念定义及其发展历史
2024-11-07 23:19

大数据的概念定义及其发展历史

大数据的概念定义及其发展历史

大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理。大数据有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

一、大数据概念定义

对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率1024(2的十次方)来计算:

8bit= 1Byte

1KB= 1,024 Bytes

1MB= 1,024 KB = 1,048,576 Bytes

1GB= 1,024 MB = 1,048,576 KB

1TB= 1,024 GB = 1,048,576 MB

1PB= 1,024 TB = 1,048,576 GB

1EB= 1,024 PB = 1,048,576 TB

1ZB= 1,024 EB = 1,048,576 PB

1YB= 1,024 ZB = 1,048,576 EB

1BB= 1,024 YB = 1,048,576 ZB

1NB= 1,024 BB = 1,048,576 YB

1 DB = 1,024 NB = 1,048,576 BB

二、发展历史

1887–1890年

美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。

1935–1937年

美国总统富兰克林·罗斯福利用社会保障法开展了美国政府最雄心勃勃的一项数据收集项目,IBM最终赢得竞标,即需要整理美国的2600万个员工和300万个雇主的记录。共和党总统候选人阿尔夫兰登scoffs嘲笑地说,“要整理如此繁多的职工档案,还必须而调用大规模的现场调查人员去核实那些信息不完整的人员记录。”

1943年

一家英国工厂为了破译二战期间的纳粹密码,让工程师开发了系列开创性的能进行大规模数据处理的机器,并使用了第一台可编程的电子计算机进行运算。该计算机被命名为“巨人”,为了找出拦截信息中的潜在模式,它以每秒钟5000字符的速度读取纸卡——将原本需要耗费数周时间才能完成的工作量压缩到了几个小时。破译德国部队前方阵地的信息以后,帮助盟军成功登陆了诺曼底。

1997年

美国宇航局研究员迈克尔·考克斯和大卫·埃尔斯沃斯首次使用“大数据”这一术语来描述20世纪90年代的挑战:超级计算机生成大量的信息——在考克斯和埃尔斯沃斯按案例中,模拟飞机周围的气流——是不能被处理和可视化的。数据集通常之大,超出了主存储器、本地磁盘,甚至远程磁盘的承载能力。”他们称之为“大数据问题。”

2002年

在9/11袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。一年后国会因担忧公民自由权而停止了这一项目。

2004年

9/11委员会呼吁反恐机构应统一组建“一个基于网络的信息共享系统”,以便能快处理应接不暇的数据。到2010年,美国国家安全局的30000名员工将拦截和存储17亿年电子邮件、电话和其它通讯日报。与此同时,零售商积累关于客户购物和个人习惯的大量数据,沃尔玛自吹已拥有一个容量为460字节的缓存器——比当时互联网上的数据量还要多一倍。

2007–2008年

随着社交网络的激增,技术博客和专业人士为“大数据” 概念注入新的生机。“当前世界范围内已有的一些其他工具将被大量数据和应用算法所取代”。《连线》的克里斯·安德森认为当时处于一个“理论终结时代”。一些政府机构和美国的顶尖计算机科学家声称,“应该深入参与大数据计算的开发和部署工作,因为它将直接有利于许多任务的实现。”

2009年1月

印度政府建立印度唯一的身份识别管理局,对12亿人的指纹、照片和虹膜进行扫描,并为每人分配12位的数字ID号码,将数据汇集到世界最大的生物识别数据库中。官员们说它将会起到提高政府的服务效率和减少腐败行为的作用,但批评者担心政府会针对个别人进行剖面分析并与分享这些人的私密生活细节。

2009年5月

大数据或成反恐分析利器

美国总统巴拉克·奥巴马政府推出data.gov网站作为政府开放数据计划的部分举措。该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。

2009年7月

应对全球金融危机,联合国秘书长潘基文承诺创建警报系统,抓住“实时数据带给贫穷国家经济危机的影响” 。联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。

2011年2月

扫描2亿年的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者。后来纽约时报配音这一刻为一个“大数据计算的胜利。”

2012年3月

美国政府报告要求每个联邦机构都要有一个“大数据”的策略,作为回应,奥巴马政府宣布一项耗资2亿美元的大数据研究与发展项目。国家卫生研究院将一套人类基因组项目的数据集存放在亚马逊的计算机云内,同时国防部也承诺要开发出可“从经验中进行学习”的“自主式”防御系统。中央情报局局长戴维·彼得雷乌斯将军在发帖讨论阿拉伯之春机构通过云计算收集和分析全球社会媒体信息之事时,不禁惊叹我们已经被自卸卡车倒进了“‘数字尘土”中。

2012年7月

美国国务卿希拉里·克林顿宣布了一个名为“数据2X”的公私合营企业用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。“数据不只是测量过程——它能给予我们启发,”她解释说。“一旦人们开始对某个问题实施测量时,就更倾向于采取行动来解决它们,因为没有人愿意排到名单的最低端去。”让大数据开始竞赛吧。

最新文章
17种免费网店推广方法
现在,做网店不仅仅需要货物的质量,更重要是推广。如果没有好的推广方法,那么就算你的东西再好也没有人知道。推广的好坏决定网店和网站的信誉度和知名度,有的网店前期推广不顾实际的情况,为了有吸引力而推出很多优惠,最后导致达不到实
微信公众号写作软件有哪些:免费、好用、推荐列表
在数字化时代微信公众号已经成为、个人和企业传播信息的必不可少平台。为了提升内容优劣和写作效率,多写作软件应运而生,它们不仅可以帮助客户优化文章结构,还能提供丰富的编辑功能让写作变得更加轻松。本文将为您推荐部分免费且好用的微
AI发布文章:如何让您的内容更智能、更具吸引力
如何让您的文章在茫茫网海中脱颖而出?如何抓住读者的注意力,并保持他们的兴趣?这些问题是每一位内容创作者都必须面对的挑战。随着人工智能(AI)的快速发展,我们迎来了一个全新的内容创作和发布方式——AI发布文章。AI发布文章并不是单
浏览器特定指定内容手动搜索技巧,GitHub高级搜索项目
site: 仅从特定网站或网域获得搜索结果(定网站) link: 查找链接到某个特定网页的网页 related: 查找与该网站相似的网站 info: 同时查看某网站以上4种信息 inurl: 查找在URL地址里有搜索关键词的页面 intext: 查找搜索的内容出现在也正文里
快速建站新体验轻松打造专业网站助你成就在线梦想
在这个数字化的时代,拥有一个专业的网站已成为每个人、每个企业的必备工具。无论你是创业者、自由职业者,还是希望展示个人作品的艺术家,网站都是你在线展示自我的最佳平台。传统的建站过程往往复杂而繁琐,需要专业的技术知识和大量的时
短营销攻略,打造品牌崛起新引擎
本方案针对短推广,通过精准定位目标受众、创意内容制作、优化发布时间及平台策略,全方位提升品牌影响力。借助数据分析与效果监控,实现品牌快速崛起,助力企业抢占市场先机。随着移动互联网的快速发展,短已成为当下最受欢迎的传播方式之
网站优化排名推荐,最好的SEO排名优化工具?
关于“网站优化排名”的问题,小编就整理了【6】个相关介绍“网站优化排名”的解答:最好的SEO排名优化工具?1、百度站长工具2、第三方站长免费工具3、百度指数4、百度统计5、17ce是国内专业做网站测速的第三方平台6、5118数据分析平台。7
SEO优化什么意思及最佳实践分享
SEO优化什么意思及最佳实践分享在数字营销的快速发展中,SEO(搜索引擎优化)成为了提升网站可见性和吸引目标受众的重要手段。通过优化网站结构、内容和外部链接,企业能够在搜索引擎中获得更高的排名,从而带来更多的流量和潜在客户。本文
金华企业网站在线曝光新引擎,排名优化与推广助力腾飞
金华网站排名优化推广,专业提升在线曝光度,助力企业迅速扩大市场影响力,实现业务腾飞。通过精准策略,优化搜索引擎排名,让企业品牌快速触达目标客户,抢占市场先机。2. **吸引潜在客户**:优化后的网站排名能够吸引更多潜在客户,为企
重庆学护理的专科学校排名,附护理专业专科学校排名
今天高校招生网小编整理了重庆学护理的专科学校排名 重庆市内的有医学类的专科学校有哪些呀?,希望在这方面能够更好的帮助到考生及家长。 重庆专科学校排名前十如下:1、重庆电子工程职业学院:全国排名第12名重庆电子工程职业学院(Chongq
相关文章
推荐文章
发表评论
0评