分享好友 最新动态首页 最新动态分类 切换频道
AI数据湖:连通数据孤岛,加速智能涌现
2024-11-07 21:30

自2022年11月ChatGPT发布以来,AI大模型技术发展迅猛。AI大模型训练正成为推动技术进步的核心力量。然而,AI大模型发展带来的数据量与类型的指数级增长,导致数据孤岛问题凸显,如迷雾般遮蔽了人们追逐光芒的脚步。华为以其AI数据湖解决方案,拨云见日,为AI大模型的训练提供了一条清晰的路径,不仅连通了数据孤岛,更加速了智能的涌现,照亮了人工智能创新与发展的新纪元。

AI数据湖:连通数据孤岛,加速智能涌现

人工智能正在全球范围内掀起浪潮。2023年底,Google发布Gemini多模态大模型,可以理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频;2024年2月,OpenAI发布Sora视频大模型,通过将扩散模型和大语言模型结合,在对物理世界的学习过程中“涌现”出三维一致性,让文生视频的真实感非常强。

AI大模型的发展速度远超人们的预期,从ChatGPT到Gemini再到Sora,可以观察得出两大发展趋势:

趋势二:大模型发展核心三要素的算力、算法和数据,展示出一种“大力出奇迹”的暴力美学。即通过堆算力、堆数据、提升参数规模(从千亿到万亿甚至十万亿),在深度学习算法框架下,实现复杂行为的涌现。在Sora发布的时尚女士漫步街头视频中,女士背后的街景(霓虹广告、行人等)不时被遮挡,但是在遮挡前后,这些街景都保持了很好的三维一致性,还原了人眼对现实世界的实际感知。

AI大模型技术的突飞猛进,让所有人目睹了从单一模态到多模态的跨越,但随之而来的海量数据挑战,迫切需要一种创新的解决方案来整合分散的数据资源。因为,数据作为对现实世界的一种呈现方式,是AI大模型训练的基础,尤其是在深度学习算法“大力出奇迹”的加持下,数据的规模和质量对训练效果提升起着至关重要的作用。然而,当前现实情况却是,绝大部分数据拥有者只关心业务应用是否可以高效地访问数据,并不关心数据被保存在哪里;而绝大部分数据管理者只关心数据是否被有效保存,并不关心这是谁的数据、什么类型的数据。这使得数据散落在多个数据中心,形成了数据孤岛。以某运营商为例,多年积累的数据总量达到数百PB,而现在每天还实时产生数百TB数据,都分散在多个数据中心。为了给AI大模型训练提供尽量多的数据训料,运营商技术部门不得不对这些数据孤岛的数据进行跨域搬迁或复制,导致筹备数据的时间在大模型训练全流程中占比超过50%。

如何打破数据孤岛,将分散的数据有效且快速地归集起来、让归集起来的数据集快速转换为AI大模型训料、让数据训料被AI算力高效访问……这些问题已经成为AI大模型基础设施建设过程中面临的最大挑战和首要考虑问题。

理想的AI数据基础设施,应该瞄准AI大模型训练的数据归集、数据预处理、模型训练这几个关键环节,提供高质量的数据服务。为达到这一目标,至少应该在数据基础设施的两个层面进行综合考量:存储设备层和数据管理层。

存储设备层

面对多源异构且体量庞大的数据,尤其是多模态AI训练场景,理想的存储设备层应具备多协议互通、高读写、易扩展等特点,才能够应对多重挑战,支撑AI大模型训练的如下关键环节:

数据管理层

数据管理层在存储设备层提供的灵活大容量扩展、高混合负载性能基础上,为AI训练进一步提供进阶的数据管理能力,从可视、可管、可用三个维度,帮助数据的拥有者和管理者以更加高效的方式来发挥数据价值。

数据存储层

在这一层,数据分散存储于多个不同数据中心。

数据中心内部,数据在热、温两层被智能分级。热层实际为华为专为AI大模型训练业务场景打造的OceanStor A系列高性能存储,可横向扩展至上千节点;而温层则是华为的OceanStor Pacific系列分布式存储,用于海量非结构化数据。OceanStor A 系列和 OceanStor Pacific 系列之间,可以实现智能分级,即同一个存储集群内部,多个A系列节点形成高性能存储层,而Pacific系列节点形成大容量存储层,两层合二为一,对外展示出一个完整的文件系统或对象桶,支持多协议互通(一份数据可以被多种不同协议访问),对内则智能地、自动地执行数据分级,很好地同时满足了容量、性能、成本的和谐与自洽。

数据中心之间,可以在不同的存储集群之间创建数据复制关系,从而支持数据在跨数据中心之间高可靠地按需流动,为AI大模型训练的数据归集在数据设备层做好了支撑。

数据编织层

“数据编织”的意思,是为数据铺就一个“阡陌交通”的流动网络,让数据可视可管可用,进而在AI大模型训练过程中可以实现价值最大化。

华为通过一个软件层 Omni-Dataverse,实现了数据的可视可管可用。Omni-Dataverse 是华为数据管理引擎 DME(Data Management Engine)的一个重要组件,通过对不同数据中心的华为存储上的元数据进行统一纳管,形成了一个数据资产全局视图,并通过调用存储设备上的接口来控制数据的流动(Omni-Dataverse 基于用户定义的策略来执行相关动作)。此外,Omni-Dataverse还可以按需控制 GPU/NPU直通存储、文件智能预取等,让算力零等待训练数据。

借助这种方式,AI大模型训练的数据归集和模型训练阶段的效率得以提升,进而支撑了集群可用度的提升。

数据服务层

华为AI数据湖解决方案在数据服务层提供了常用的服务框架,包括数据处理、模型开发、应用开发。

数据处理,主要提供数据清洗、转换、增强、标准化等预处理动作。大模型客户可以将其自己的算法、函数融入其中,通过该框架来简化预处理过程的管理。当然,客户也可以灵活选择使用其他的框架。

模型开发和应用开发,与数据处理类似,均是为方便用户而提供的框架。客户可以根据自己的需要进行灵活选择。

最新文章
牙克石网站排名优化软件,提升网站流量的秘密武器,牙克石信息平台
牙克石网站排名优化软件是一款专为提升网站流量的工具,通过精准优化网站内容和结构,提高搜索引擎排名,从而吸引更多潜在客户。该软件采用先进算法,分析用户搜索习惯,智能推荐关键词,提升网站曝光率。该软件还具备实时数据监控功能,让
搜索引擎技巧.pdfVIP
搜索引擎技巧搜索引擎可以帮助使用者在Internet上找到特定的信息,但它们同时也会返回大量无关的信息。如果您多使用一些下面介绍的技巧,将发现搜索引擎会花尽可能少的时间找到您需要的确切信息。类别搜索1许多搜索引擎(如Yahoo!)都显示类
高清美女写真生成新潮流:用AI轻松打造你的虚拟女友!
步骤2:输入描述 在文本框中输入你想要的美女写真特点,比如“长发,蓝眼睛,穿着白色衬衣的模特”。保持描述的简洁且具体,系统会更容易理解你的需求哦。步骤3:选择风格(可选) 如果你对风格有特别要求,比如想要梦幻效果或者写实风格,
最新说说发布中心,最新说说发布中心SEO攻略:如何提升内容被百度收录的机会?
  最新说说发布中心揭秘:如何被百度收录及其建议提醒  摘要:本文将围绕“最新说说发布中心”这一主题,探讨内容如何被百度有效收录,并给出相应的建议以提醒大众。文章将从关键词选择、内容创作、网站优化等方面进行详细阐述,旨在帮
谷歌SEO中,如何轻松获得高排名?
在当下这个信息爆炸的时代,每一个企业或个人都渴望自己的网站能在谷歌搜索引擎中脱颖而出,获得更高的排名,从而吸引更多的流量和潜在客户。基于我多年的实战经验和对SEO行业的深刻理解,我发现,要想在谷歌SEO中轻松获得高排名,并非一朝
谷歌SEO里,你既爱又恨的SEO工具是什么?
在SEO行业的摸爬滚打中,我逐渐发现,那些让人又爱又恨的工具,往往是最具争议也是最有效的。今天,我们就来聊聊我在谷歌SEO实战中,对某个既爱又恨的SEO工具的深刻体会。一、谷歌SEO里,我难以割舍的双刃剑作为一名SEO老鸟,我深知每个工
揭秘2024新奥资料,免费获取精准资源全攻略
随着科技的飞速发展和信息时代的到来,资料获取变得日益重要,对于即将迈入新奥时代的我们来说,掌握一手的、精准的2024新奥资料,无疑将为我们的发展带来巨大的优势,本文将为您详细介绍如何免费获取这些精准资料,助您在新奥时代站稳脚跟
域名收录 批量查询域名收录的方法
互联网世界是一个庞大而复杂的网络,每天都有数以亿计的网页在其中产生、消失,网站的排名与权重更是对于一个网站的存在和发展至关重要。但是,对于普通用户来说,如何了解一个网站的真实情况?如何判断一个网站的价值与可信度?这就需要借
生成式人工智能赋能社区教育
生成式人工智能(以下简称AI)为主要特征的第四次科技革命,将对我国社区教育产生全方位的冲击及影响,成为未来社区教育变革的重要推手。研究AI驱动的社区教育变革特征,剖析未来面临的现实挑战,阐明应对策略,对促进我国未来社区教育高质
ai创作产品设计怎么用ps打开及文件操作指南
随着科技的不断发展人工智能()在设计领域的应用越来越广泛多设计师开始借助技术实创作。本文将为您详细介绍怎么样采用Photoshop(PS)打开创作的设计文件以及实文件操作的方法。创作设计是指利用人工智能技术,通过算法和模型对设计元素
相关文章
百度死了吗
如何通过SEO短视频网页入口引流-:掌握免费推广秘籍
4p4c4r营销理论分别指什么(解析营销四大经典理论)
从数据、模型到业务的大数据商业化逻辑
10个超实用的SEO网站:提升您的网站排名和流量
SEM关键词的三种分类方式
16岁少女拒爱被“官二代”焚烧毁容:13年过去,凶手早已出狱相亲
马斯克风光背后:9个孩子3个妈,5个已退学,大儿子与他断绝关系
章丘通报“15岁男孩被打死”:遭生父脚踢棍打,未及时送医
解放军多兵种演习回应美议员窜访台湾 , 专家:应做好对台军事斗争准备
推荐文章
openwrt原版系统安装zerotier,私有化planet,网段互通
AI设计师横空出世,设计界迎来新纪元!
网站SEO工具:提升网站排名的秘密武器
免费seo网站推广(网站推广seo软件)
SEO搜索引擎优化、网站关键词选择与技巧
GPTvsMBR:磁盘分区表格式对比与管理
AI文案工具崛起:创作者的新选择,提升效率与创意的利器!
chatGPT获取api的步骤 chatbot api
让人头大的SEO、SEM、CPA、CPS、CPM、CPT、CPC是什么
Daniel:Ahrefs工具在SEO实操中的具体运用(上)
发表评论
0评