根据IDC在2018年底的预测显示,由于大数据、AI、物联网、5G等因素的驱动,全球的数据量在2025年将高达175ZB(1ZB=1024EB,1EB=1024PB)。在中国市场,由于AI技术在安防等领域的大规模落地与应用,IDC预计,中国将在2025年成为拥有数据量最大的地区,甚至超过整个EMEA(欧洲+中东+非洲),其中绝大部分数据是非结构化数据。
海量数据时代来临,但在这上空飘着一朵乌云——那就是海量小文件的存储问题。
海量小文件是怎么产生的?
海量小文件:业内通常将大小在1MB以内的文件称为小文件,百万级数量及以上称为海量,由此量化定义海量小文件。
首先我们来看一下海量小文件是怎么产生的?
人工智能、物联网、智慧金融、智能安防、传感器网络、科学实验等应用的发展产生了大量数据,这些数据种类繁多,大小不一。不仅包括海量的大文件(大于1MB),也包括海量的小文件(小于1MB)。特别是小文件的数量将达到千万级、亿级甚至十亿、百亿级。
在智能安防领域有很多典型的海量小文件场景,人脸识别就是其中之一。人脸识别的基础原理,就是通过将摄像机拍摄的图片与视图库进行比较,如果匹配则命中。对于一个大型城市来说,摄像机抓拍的图片数量会达到百亿级规模。在对这些原始数据进行分析应用的过程中就会涉及到对百亿级规模的海量小文件的处理。
类似的还有智慧金融,这也是一个会产生海量小文件的场景。金融业务不仅有大量原始票据通过扫描形成图片和描述信息文件,还有电子合同、签名数据、人脸识别数据等。金融的影像数据一般单个文件大小为几KB至几百KB不等,文件数量达到数亿至数十亿级规模,并且逐年增长,需要做长期的保存。
海量小文件,存储大烦恼
海量小文件体量庞大,但目前的文件系统包括本地文件系统、分布式文件系统都是匹配大文件场景的。从细节来说,如对元数据的管理、数据布局、缓存管理等的实现策略都侧重于大文件,导致在海量小文件情况下,存储处理性能极差。(比如日常的文件拷贝,如果拷贝一个大文件的电影到移动硬盘,拷贝的速度能达到100MB/S,但是如果拷贝的是超过上万个小图片,拷贝速度可能不到5MB/s)
因此,海量小文件存储问题一直被认为是工业界和学术界的难题,是海量数据时代上空飘着的那朵乌云。如前面所讲的智能安防、智慧金融的存储架构方案设计,就需要重点考虑到存储系统对于海量小文件的处理性能难题。
具体来说,导致海量小文件处理性能差的原因主要有如下三点:
元数据管理低效的问题
讲这个问题之前,我们先认识一下元数据。在存储系统中,数据分为两部分进行存储:一部分是真实数据;另一部分是描述这份数据的元数据,比如文件系统中文件的文件名、文件大小、执行权限等。元数据有着明显特点,那就是数量多,而且容量小。
在通用的文件系统设计中,如果需要访问一份真实的数据就需要先访问到该数据的元数据。可是我们知道,当前主流的文件系统基本都是面向大文件设计的,在海量小文件的情况下,因为必然会产生更大数量级的元数据,这会放大文件系统扩展性差、检索效率低的问题。比如传统NAS存储采用二叉树结构进行数据的存放,这种方法在遇到海量小文件的时候,文件系统在存储海量小文件的同时还需要存储更大数据级的海量元数据,NAS存储在扩展性和检索速度方面很容易就达到了瓶颈。所以,传统的NAS文件系统在海量小文件下,性能衰减得异常厉害,一般文件数量级到达千万级的时候效率就会变得极其低效。
因此,如果想要彻底解决海量小文件的问题,首先就需要存储系统有一个健壮高效的元数据管理平台(库)。如果没有核心技术解决这个问题,这个存储系统即使在其他方面的优化做得再好,也仅能满足几个亿级别的小文件存储,而无法满足百亿级别的小文件存储。
I/O访问流程复杂的问题
传统的文件系统在文件读写的时候流程过于复杂,在读取一个文件的时候,需要产生多次I/O。例如对于Linux系统在读取文件的时候,至少需要先读取文件目录元数据到内存,紧接着把文件的索引节点(inode)装载到内存,最后再读取实际的文件内容,在访问数据过程中会多次读取元数据,效率极低。
机械磁盘对于随机小I/O读写性能低
当前很多文件系统都是将元数据分散存储,从真实存储的位置来看分散在存储的所有磁盘当中,因此元数据的读写属于随机的I/O。然而机械磁盘对于随机的I/O性能极低,因此在海量小文件的场景下由于元数据读写会产生随机高频次的I/O读写,对于当前以机械盘为主的存储系统来说,性能极差。
(采用全闪存效果会比较好,但是目前来说,对于海量的非结构化数据若使用全闪存,从成本来看并不现实)
解决海量小文件存储难题
需要对症下药
综合上述分析,如果想要解决好海量小文件的存储难题,就需要对症下药。对于海量小文件的存储优化可以从元数据管理、数据组织、I/O 流程优化与缓存管理(业界通常称为Cache管理)等几个方面下手。具体的技术包括通过优化元数据管理与数据组织方式、小文件合并、优化缓存命中率等方面,来提升海量小文件的存储性能支撑,从而达到提升海量小文件访问效率的目的。
元数据的承载。正如上文所说,海量小文件处理的瓶颈在于对元数据的处理,业内通常采用分布式数据库实现。通过对元数据进行独立组织与承载,并通过元数据语义优化、写入优化等,降低元数据在I/O路径和资源等方面不必要的性能消耗与写入次数。匹配上优化的技术,减少I/O数量,比如在处理业务高并发的时候,将并发的多个操作合并成一个操作,进一步提升吞吐。最后,为了进一步保障元数据的小I/O高性能,通常将元数据存储在SSD的数据分层空间中,进一步加速元数据的访问效率。
分布式智能缓存技术。针对海量小文件设计的分布式智能缓存层,能够让小文件在写入SSD后即返回,缩短I/O路径,有效降低时延,提高性能。同时还可以有效降低原生纠删码的I/O写入放大的问题,提高原生纠删码的性能,进一步提升分布式存储对海量小文件的性能支持。
小文件合并。通过将小文件落在智能缓存的同时还能够将小文件在线合并成大I/O,然后通过条带化技术(将大数据切分成小数据并发存储到不同硬盘)写入HDD,极大地提升了I/O的性能。并且小文件合并还能够减少文件数量,从而减少对应的元数据数量,来提升性能。
行业难题与机遇往往相伴而行,各大厂商在攻克海量小文件存储难题上各显神通,既有老牌厂商,也有近年来异军突起的新锐玩家。在这其中,深信服存储宛若一个老道的新手,在海量小文件的处理上携清晰的解题思路强势入局。根据深信服公开的技术资料来看,其EDS对企业级分布式存储处理海量小文件的性能优化思路与前面讲的几点不谋而合,其核心技术点可以归纳为三点:
第一,深信服推出了一个全新的分布式数据库PhxKV来对独立承载元数据。PhxKV具备优秀的性能扩展能力,能够轻松承载数百亿规模的元数据,成为深信服支撑百亿海量小文件高性能的坚实基础。深信服内部进行的性能测试显示,PhxKV使用两核时的吞吐,就能和MongoDB使用17核时的吞吐相当。
第二,通过智能缓存技术,采用高性能的SSD来加速海量小文件的读写效率并缩短I/O路径。
第三,通过小文件合并技术来降低文件的数量,从而减少整体I/O读写频次来提高I/O性能。
尤其是针对海量小文件的顽疾,深信服企业级分布式存储EDS在性能提升方面表现抢眼,并且在权威机构测试和用户的实际应用中得到检验。
日前,深信服企业级分布式存储EDS通过中国泰尔实验室权威机构多项指标测试验证,其中对海量小文件承载的性能表现很抢眼。根据测试数据,深信服EDS通过三节点构建的对象存储能够轻松承载100亿小文件,且性能抖动不超过5%;对象上传速度达到15,000个/s,对象下载速度达到40,000个/s。
▲深信服EDS中国泰尔实验室测试内容及结果
值得一提的是,深信服EDS在处理海量小文件时呈现出的高性能,是通过软件机制和优化来充分发挥硬件长处、激发硬件潜能,最终实现用更低成本的硬件平台,也能够获得高性能,带来的是更具性价比的解题思路。
海量小文件实践案例
南方某市公安系统采用了深信服分布式存储进行智能安防的数据存储,其中涉及到3.5PB的视频存储以及数十亿级别的人脸识别的海量小文件存储,是一个典型的大文件与海量小文件混合存储的场景。
深信服企业级分布式存储EDS采用对象存储与平台进行对接,系统峰值每秒有将近3,000张图片写入存储系统。目前存储系统内保存的海量小文件数量已经超过50亿,而且还在不断增长当中。得益于深信服在海量小文件的性能优化,使得EDS平台能够从容应对大并发的人脸识别系统,并且满足后续针对原始图片数据的二次挖掘应用。
对于非结构化数据存储来说,攻克了海量小文件存储难题,基本代表了该存储能够适配绝大多数非结构化数据存储的场景。深信服分布式存储基于软件定义技术、采用通用的X86服务器与以太网交换机,激发硬件潜能,在海量数据时代帮助用户构建一个可靠、高性能、智能管理的海量数据存储平台。
IT解决方案:
移动办公安全解决方案 移动应用安全解决方案
在线业务优化解决方案 在线业务安全解决方案
企业数据安全解决方案
分支组网优化解决方案
业务容灾备份解决方案
互联网安全管控解决方案
新型智慧城市解决方案
政务数据中心建设方案 政务专网建设解决方案
互联网安全优化方案 政务移动安全接入方案
业务全网等级保护三级整改建设案例 业务内网等级保护三级整改建设案例
电子政务专网应用加速及传输优化解决方案
政府信息中心上网行为管理解决方案
企业办公无线解决方案 电子商务网站优化解决方案
企业办公桌面云解决方案 数字校园解决方案
桌面云解决方案 数字图书馆解决方案
业务与支撑系统安全 随势而变的ICT
云资源池安全与优化 广电网络解决方案
网络安全等级保护(等保2.0)解决方案
等保一体机解决方案 云安全解决方案
产品应用场景:
终端安全建设 办公网安全建设 数据中心安全建设
移动安全建设 构建网端云敏捷安全架构
关键业务上云 涉密虚拟化建设 私有云建设
分支云建设 容器云建设 托管专属云建设 同架构混合云建设
数据中心容灾备份 云数据中心建设 改善网络访问体验
服务器负载均衡 双活数据中心 IPv6改造
替换传统PC终端 云数据中心统一存储 海量非结构化数据存储
多分支组网 全球访问加速
企业级数据中心新建/改造
业务系统新建/改造
关键应用上云 容灾备份云
开发测试云 容器云
IT价值:
运维 稳定 安全
安全品类:
边界安全 云安全 终端安全 威胁检测
身份与访问安全 安全审计与运营
云产品HCI超融合一体机:
配置管理
资源监控
分布式防火墙
异构虚拟化管理
CDP及数据备份
集成docker
集成aSEC
产品方向:
安全类
云镜YJ 下一代防火墙NGAF 上网行为管理AC SSL VPN 终端检测响应EDR 合规类产品 EMM 安全感知平台 XSEC WEB应用防火墙WAF 云眼/云盾 /云图 上网安全服务平台ISSP 等级保护 安全服务
云计算类
超融合 HCI 超融合云管平台aCMP 监控中心aMC 涉密虚拟化sCloud
基础架构类
桌面云aDesk 应用交付AD SDWAN-WOC SDWAN-MIG 集中管理平台SC&BBC SDWAN-aBOS SD-WAN 企业级分布式存储EDS SDW-R
云产品核心优势:
架构更简单
扩容更便捷
应用部署更简单
数据更可靠
稳定高效承载关键业务
多维度的安全防护能力
更高效的安全策略管理
可视化极简运维
产品:国行原装正品, 深信服科技官网
深信服官网:sangfor.com , 深信服科技官网
产品分类:
企业级安全
边界安全 下一代防火墙AF
云安全 信服云盾 信服云眼
重构入云业务安全边界 威胁检测 安全感知平台SIP
安全解决方案
网络安全等级保护(等保2.0)解决方案 云安全解决方案
网端云敏捷安全架构
终端安全
终端检测响应平台EDR 企业移动管理EMM
身份与访问安全
上网行为管理AC SSL VPN 硬件VPN EasyConnect
行为感知系统BA
安全审计与运营
数据库安全审计DAS
云计算
企业级云aCloud 超融合aCloud
新型智慧城市解决方案 服务器虚拟化
云管平台aCMP 大数据智能平台
超融合软件 超融合一体机
基础架构
桌面云aDesk 应用交付AD
软件定义统一存储系统EDS
一体化网关MIG 广域网优化WOC 安全SD-WAN2.0
深信服总代理(深信服经销商/深信服代理商):
四川深信服:德阳深信服 绵阳深信服,攀枝花深信服,西昌深信服,雅安深信服,内江深信服,资阳深信服,南充深信服,眉山深信服,乐山深信服,自贡深信服 泸州深信服 广元深信服 遂宁深信服 宜宾深信服 广安深信服 达州深信服 雅安深信服 巴中深信服 资阳深信服 攀枝花深信服 凉山彝族自治州深信服 甘孜藏族自治州深信服 阿坝藏族羌族自治州深信服
企业级无线方案适用机型:
无线AC控制器
千兆无线控制器NAC-6100
千兆无线控制器NAC-6200
千兆无线控制器NAC-6300
千兆无线控制器NAC-6380
千兆无线控制器NAC-6600
万兆无线控制器NAC-7100
万兆无线控制器NAC-7200
万兆无线控制器NAC-7300
万兆无线控制器NAC-7600
小型无线控制器HG-2005-P
软件控制器SAC-1000
室内无线AP
11n型SMB无线接入点NAP-1500
11ac型无线接入点NAP-1600
11ac wave2型无线接入点NAP-1700
11n型SMB无线接入点NAP-2400-S
11ac wave2双频无线NAP-3600(MU)
11ac wave2双频无线接入点NAP-3700
11ax 高性能无线接入点NAP-3720-X
11ac蓝牙无线接入点NAP-4650
11ac wave2智能天线无线NAP-5600
11ax 高性能无线接入点NAP-5820-X
11ac wave2智能天线无线接入点SDU-1800
室外无线AP
11ac无线接入点NAP-8000
11ac无线接入点NAP-8000(L)内置天线
11ac无线接入点NAP-8000(L)外置天线
11ac wave2无线接入点NAP-8100
11ac wave2无线NAP-8100(L)内置天线
11ac wave2无线NAP-8100(L)外置天线
11ax 高性能无线接入点NAP-8220-X
面板无线AP
802.11n面板NAP-2800-P
802.11ac面板NAP-3500-P
802.11ac wave2面板NAP-3560-P
802.11ac wave2面板NAP-3600-P(MU)
特殊无线AP
NAP-1720-LTE室内wave2无线接入点
室外4G全网通无线接入点NAP-8100(L)-LTE
NAP-4100V全网通移动车载无线AP
NAP-3620电子书包场景专用无线AP
NAP-3620(R3)高密环境专用三频无线AP
NAP-3680医疗场景零漫游无线AP
11ac wave2高密定向无线NAP-3700(D)
NAP-8100工业级防爆无线AP
无线网络相关配件:
网口防雷器
天馈防雷器
室内专用美化天线
室外专用定向天线
室外专用全向天线
超远距离中继天线
四川 成都 深信服 代理:
深信服成都渠道代理商有哪些;深信服渠道代理商有哪些;深信服nat代理上网;深信服代理商资质查询;深信服总代怎么样;深信服的渠道有哪些;深信服金牌代理;深信服成都金牌经销商;深信服四川金牌经销商;深信服金牌代理商;深信服金牌 成都深信服科技有限公司
深信服科技成都分公司 深信服成都区主管是谁 深信服成都
深信服成都办事处 深信服成都网络安全
深信服成都代理商有哪些 深信服成都防火墙
深信服 防火墙 上网行为管理 具体型号:
深信服 AC-1000-A400 深信服 AF-1520 深信服 AC-1000-B400
深信服 AC-1000-C600 深信服 NGAF-1000-D420
深信服 VPN-2050 深信服防火墙NGAF-1000 深信服 AC-1400
深信服 AF-1300 深信服 NGAF-1000-D440 深信服 AC-1000-D600 深信服 NGAF-1020
深信服 NGAF-1120 深信服 AC-1700 深信服 VPN-2150 深信服 VPN-1100 深信服VPN-6050
深信服 AC-1000-A200 深信服 AC-1000-A300
深信服 NGAF-1000-B400 深信服 防火墙 NGAF-1020
深信服SANGFOR AC-550 深信服 AC-1000-B400
深信服 NGAF-1000-E800 防火墙 深信服AF-1800
深信服维修(sanfor维修),以及更多产品和详情请咨询:
成都科汇科技有限公司 — 专业企业级安全、云计算与IT基础架构服务商
无论您是解决企业级安全、云计算,还是IT基础架构,都可以使您的IT更简单、更安全、更有价值
成都科汇科技有限公司(深信服官方授权代理商)
地址:成都市人民南路四段1号时代数码大厦18F
电话:400-028-1235
QQ: 1325383361
手机:180 8195 0517(微信同号)