基于大数据背景下数据库安全技术的探讨-征文网

wangyao 2022年6月25日原创文章评论18 阅读9604字

基于大数据背景下数据库安全技术的探讨
王瑶
(汉江师范学院数学与计算机科学学院,湖北 十堰 442000)
摘 要: 在当前大数据的背景下,大数据产业链占有至关重要的核心地位,相关安全保障体系建设具有
重要意义。而如何加强大数据平台网络安全建设和运维研究,就显得尤为关键,这就需要营造安全的网络
环境,确保用户在网络安全的推进各类活动。本文从数据资产梳理、数据库加密、数据库安全运维、数据
脱敏、数据库漏洞扫描等方面介绍大数据安全,并随文提出部分建议,以供参考。
关键词:大数据;安全体系;网络安全;数据库
The Discussion on Database Security Technology Based
on Big Data
Wang-Yao
School of Mathematics and Computer Science, Hanjiang Normal University, Shiyan 442000, China
Abstract: In the current context of big data, the big data industry chain plays a crucial core role, and
the construction of relevant security system is of great significance. How to strengthen the big data
platform network security construction and operation and maintenance research is particularly
critical, which needs to create a secure network environment to ensure that users in the network
security to promote all kinds of activities. This paper introduces big data security from the aspects
of data asset combing, database encryption, database security operation and maintenance, data
desensitization, database miss scan and so on, and puts forward some suggestions for reference.
Keywords: big data; security system; network security; database
随着信息技术和人类生产生活交汇融
合,各类数据迅猛增长、海量聚集,对经济
发展、人民生活都产生了重大而深刻的影响。
数据安全已成为事关国家安全与经济社会
发展的重大问题。2022 年 6 月 21 日,据安
全行业业界内消息,大学生学习软件“超星
学习通”的数据库信息被公开售卖,其中泄
露的数据信息 1 亿 7273 万条,体量巨大。
此次事件引得 “数据‘裸奔’”再次被重点
关注。大数据安全技术涉及多个方面,数据
风险问题不容小觑,数据安全问题涉及公众
利益、社会稳定与国家安全,亟需规范安全
管理、加强安全防护。
1 数据资产梳理
1.1 数据资产概念概述
数据资产梳理是构建数据资产库的基
础,是保证数据安全使用和统一管理的重要
手段,能够实现数据安全保护、敏感数据管
理和合规性的需求[1]
。它是敏感数据处理的
技术之一,可以通过数据资产梳理实现敏感
数据发现,将数据库中的敏感数据进行变形
处理,通过静态脱敏和动态脱敏,以实现敏
感数据防泄漏。
1.2 数据资产的来源与内容
数据资产的来源分为内部渠道和外部
渠道。
根据数据是否经过筛选、清洗、加工等
步骤,内部数据来源分为原始数据和次级数
据。其中,原始数据的数据量极大,但杂质
较多且仅反映个体特征。
根据是否需要支付等价的费用,外部数
据来源分为免费数据和付费数据[2]

数据
来源




具体内容及示例
内部
数据
来源




自有用户数据:互联网企业运
营平台上自有的流量客户信
息及客户产生的其他数据
软件系统数据:ERP 信息化数
据、SAP 应用数据、用友等财
务信息数据等
生产经营数据:产品信息数
据、价格信息数据、质量信息
数据、用户评分数据等




整合加工数据:客户画像、财
务指标数据、市场占有率数据

外部
数据
来源




政府公开数据:国家统计局数
据、颁布的政策文件信息、资
源使用情况信息等
网络搜索引擎数据:网络页面
数据、行业研究报告、专业人
士看法意见等




外部平台用户数据:其他平台
将其所拥有的用户数据对外
出售从而获利
智能终端数据:运营商所掌握
的用户通话时长、选用套餐月
租费用情况等
通信软件数据:各类社交平台
和通信软件的数据
表 1 数据资产的来源、类型及具体示例
1.3 数据安全状况梳理现状与技术挑战
大数据平台由多个部分构成,包括数据
采集端、基础设施层、数据存储层、数据处
理层、数据管理安全、能力开放层和大数据
平台运营运维层,敏感数据范围广,数据量
大,存在敏感数据识别难、敏感数据动态管
理难等客观困难,而现有管理手段单一,缺
乏有效手段对全网敏感数据存储、流向、泄
露预警等方面进行管理,数据分布及展示不
直观、不及时、碎片化等问题尤为突出。
相关技术也面临挑战,组织需要确定敏
感性数据在系统内部的分布情况,其中的关
键问题在于如何在成千上百的数据库和存
储文件中明确敏感数据的分布;组织需要确
定敏感性数据是如何被访问的,如何学握敏
感数据在被什么系统、什么用户以什么样的
方式访问:组织需要迅速确定当前的账号和
授权状況,清晰化、可视化、报表化的明确
敏感数据在数据库和业务系统中的访问账
号和投权状况,明确当前权控是否具备适当
的基础。
1.4 对数据资产梳理的建议
1.4.1 数据资产管理需要转变观念 数据治
理是管控数据资产的一种有效的方法,但它
需要被组织所重视。有些企业建立了相应的
管控机制,但是人们并不愿意按照预期的那
样将精力投入到管理机制中。如果不努力创
建高质量的数据,如果不提出数据质量问题,
或者如果人们不愿意使用公认的数据源,则
此机制将不起作用。这个机制取决于所做的
努力,因此有效地实施数据管理需要转变观
念。
1.4.2 准化是控制数据资产的重要组成部分
达成共识是有效利用数据资产的重要一步。
庞大的组织规模和各种不同的业务活动为
不同的工作方式和不同的术语提出了挑战。
组织内部需要术语和定义的标准化,需要能
够将数据资产联系在一起。就关键的数据资
产定义达成一致是必要的,以便弥合业务和
IT 之间的术语鸿沟。确定共同的权威数据源
是公认的高质量数据的关键。
1.4.3 数据资产的价值是使用 数据资产管
理最重要的是有人对数据负责。应该有人负
责决定数据应该是什么样子,质量问题是如
何解决的,以及它与其他数据集的关系。如
果数据只是由组织中没有任何治理的人员
使用,则不会有任何变化。数据资产认责是
提高数据质量的第一步,也是最重要的一步,
从长远来看,这意味着更好地使用数据。
1.4.4 可追溯性是数据资产价值创造的关键
随着组织数据资产的规模越来越大,导致了
不同的数据定义和源格式。再加上数据质量
问题,很难将数据源彼此连接起来。连接数
据源、可追溯性的能力可以转化为价值,例
如,增加控制和启用高级分析。可追溯性和
血缘关系并不是一回事,数据血缘主要描述
单个数据源如何通过流程流进行转换,但数
据可追溯性是指映射不同数据源之间的关
系。数据血缘侧重于数据生命周期,而可追
溯性描述了数据源相互引用的情况。
2 数据库加密
数据库加密系统是一款基于透明加密
技术、主动防御机制的数据库防泄漏系统,
该产品能够实现对数据库中的敏感数据加
密存储、访问控制增强、应用访问安全、安
全审计以及三权分立等功能。有效防止明文
存储引起的数据泄密、突破边界防护的外部
黑客攻击、来自于内部高权限用户的数据窃
取,防止绕开合法应用系统直接访问数据库,
从根本上解决数据库敏感数据泄漏问题,真
正实现了数据高度安全、应用完全透明、密
文高效访问等技术特点。在大数据环境下,
大部分的数据库都能够提供数据加密功能,
例如 SQL Server 数据库构建的多维度密钥
保护与备份信息加密等。但是考虑到数据的
特殊性,数据库所存储的信息量较大,在这
种情况下可能对数据库的加密与加密的稳
定性产生影响,因此用户可根据安全管理要
求对数据库中的高度机密的数据做加密处
理[3]

2.1 数据库加密的必要性
数据开启了智能时代的大门,当前数据
安全形势严峻,各类数巨泄露事件层出不穷。
在当前知识型经济之下,企业特别是上市公
司信息资产显得特别重要,能否有效保护专
有技术等内部信息,更是求得成功的关键,
以及业务保障的基础。企业与其他公司沟通、
交换业务数据信息都是以互联网为主要渠
道。对于公司而言,用户的敏感信息都不应
该存在日志里面,把用户密码存进数据库应
该用摘要算法保护,还有一点,数据库中存
储的绝对不能是明文密码。理论上任何人都
不可能找回密码,现在的网站也不会提供
“找回原来密码”的功能。他们会提供“忘
记密码”或者是“重置密码”功能,在输入
填写过的邮箱或者手机号码,来获取系统发
送的验证码来重置密码,因为他们在数据库
并没有保存你的实际密码,只是保存经过摘
要算法后的密码形式。
当下数据运行的操作系统有限,这些操
作系统的安全性大多为 C1 级左右。这些操
作系统对用户数据一般有识别和审计等基
本的功能。虽然数据库增加了一些自身的保
护功能,如权限管理设置,但是系统还是不
能对数据做到全方位的保护。拥有数据管理
权的管理者,可以对数据做不限次数的访问。
根据实际的反馈,大多信息泄露,都是内部
自身出了问题。如果不对数据管理员做出有
效的监督,数据库的安全形式仍然严峻[4]

前车之鉴,某些互联网大公司把这些数
据写在日志上,或者明文保存,或者是简单
的 Hash 而已。好些年的 CSDN 密码泄露,
V2EX 的以当前时间进行 MD5 摘要保护的
安全隐患,网易、京东等等数据泄露的大公
司也不愿多加几行代码来保护用户的数据。
随着用户需求的不断增加,不少用户在不同
的网站都注册了账号,为了方便记忆,不乏
一些用户几乎所有平台使用同一密码,从侧
面增加了破解密码的容易度。数据库的安全
除了需要加密技术作为技术支撑,同时需要
完善的内部监督管理机制。否则再高的加密
技术也是人设计出来的,如果没有对相关人
员做到应有的监督管理,一切加密都不能起
到实际的作用。
2.2 数据库加密的分类与重要特性
2.2.1 全盘加密 来用全盘加密系统或者存
储加密网关系统,将数据库文件所在的磁盘
扇区进行加密。当数据库访问磁盘扇区的时
候,对加密扇区再进行解密。这种方式对于
数据库自身来说是透明的,数据库管理系统
也感觉不到加密解密过程的存在。这种加密
方式工作在存储层,仅能防止磁盘丟失时敏
感数据遭受泄漏。所有对磁盘具有访问权限
的用户都可以访问到真实的数据库文件。因
而,对于控制了操作系统的攻击者来说,并
没有防护能力。
2.2.2 文件加密 在操作系统文件驱动层将
数据库的存储文件经过加密后存储到磁盘
上。当数据库访问存储文件的时候,再进行
解密。这种方式对于数据库自身来说也是透
明的,数据库管理系统也感觉不到加密解密
过程的存在。这种加密方式能防止磁盘丢失
和文件被复制导致的敏感数据泄漏。但是,
对手控制了数据库系统的攻击者来说,文件
还是开放的,因而也没有真正的防护能力。
2.2.3 数据库自带加密 某些数据库自身提
供了加密机制,在数据库内核实现了存储的
加密。这种加密方式能防止磁盘丢失和文件
被复制导致的敏感数据泄漏。但是,对于控
制了数据库系统的攻击者来说却是开放的,
并没有防护能力。而且其密钥管理通常不会
对数据库用户开放,安全性得不到保证,也
得不到国内相关评测机构的认可。
2.2.4 库内扩展加密 通过使用视图、触发
器、扩展索引等机制,实现透明加密。由于
引入了独立于数据库的第三方程序,通过控
制加密解密的权限,增加了额外的访问控制。
对于数据库内不同的用户,也可以控制其对
加密数据的访问。但是这种加密方式不能越
过应用系统,实现应用系统用户对敏感数据
的访问控制。市且这种加密方式依赖于数据
库系统的扩展索引机制,并不能在所有数据
库上实现。
2.2.5 数据库加密冈关或加密驱动 通过对
数据库前端部署数据库加密网关,或者通过
扩展数据库访问驱动(如 JDBC 驱动)实现
数据库加密。这种方式理论上能够支持所有
的数据库,是一种通用的解决方案,且安全
性更高。但是对于所有访问语句和访问机制
却难以全部支持,例如对手网关之后的存储
过程和触发器都无法支持。
2.2.6 应用加密网关 在应用系统之前放置
加密网关,进一步将数据加密的位置提前,
在数据进入应用系统之前进行加密。这种加
密方式可以控制应用系统的用户对数据的
访问权限,并旦真实数据对所有数据库用户
都是不可见的,是最安全的一种加密方式。
事实上,这种加密方式与具体的数据库无关,
是对立与数据库的。但是由于应用系统的复
杂性,实现的难度也较大。
2.3 数据库加密防护
数据库加密是应对数据库信息泄露的
有效手段。数据库加密采用透明加解密技术,
基于主动防御机制,可以防止明文存储引起
的数据泄密、突破边界防护的外部黑客攻击、
来自于内部高权限用户的数据窃取、防止绕
开合法应用系统直接访问数据库,实现对数
据加密存储、访问控制增强、应用访问安全、
安全审计以及三权分立等功能,从根本上解
决数据库敏感数据泄露问题[5]

一般而言,数据库系统中每条记录所包
含的信息都具有一定的封闭性,即从某种程
度上说它独立完整地存储了一个实体的数
据,因此是最常用的数据库信息加密手段。
这种方法的基本思路是:基于记录的加密技
术在各自密书的作用下,将数据库的每一个
记录加密成密文并存放于数据库文件加密
中;记录的查找是通过将需查找的值加密成
密码文后进行的。
另外一种情况是把把数据库文件作为
整体,用加密器和加密算法对整个数据库文
件加密,形成密文来保证数据的真实性和完
整性。利用这种方法,数据的共享是通过用
户用解密密钥对整个数据库文件进行解密
来实现的,但多方面的缺点极大地限制了这
一方法的实际应用。首先,数据修改的工作
将变得十分困难,需要进行解密、修改、复
制和加密四个操作,极大地增加了系统的时
空开销;其次,即使用户只是需要查看某一
条记录,也必须将整个数据库文件解密,这
样无法实现对文件中不需要让用户知道的
信息的控制。但是,这种办法只适用于能回
避这些限制的应用环境。
3 数据库安全运维
3.1 数据库安全建设和运维的缺点
3.1.1 采用的运维方法优势不够突出 针对
网络信息内容的处理,过去更多是采用传统
的方法和手段去处理,由于所采用的运维方
法优势不够突出,所以很难从根本上及时解
决所存在的问题,在可行性方案出来前,仅
能够简单地检查和维护信息内部系统,增加
了相关工作的难度。
3.1.2 智能化水平低 现如今,针对数据库
智能系统核心技术的控制上,因为大部分信
息运维团队的水平比较低,所以人工处理信
息故障的情况少之甚少,仅仅通过简单的数
据技术来处理各项事宜,而这必然会降低维
护工作的效果。
3.1.3 信息系统过于复杂 根据当前大数据
背景来看,数据技术变得愈加复杂,而这样
一来就势必提高了其操作和维护的难度,长
此以往传统的维护技术也会被淘汰,不再适
用于软件系统维护的工作。而且,一旦内部
信息发生问题,就会对数据存储的研究工作
产生干扰,最终损害了客户的利益[6]。
3.2 数据库安全建设和运维策略
推进数据库运维建设,首先就需要培养
一支综合实力强的运作团队。对于信息企业
而言,各个数据中心运维的高效率管理对其
纵深化发展有着积极的作用。但由于数据中
心当中的运维管理模式存在一定的复杂性,
而且涉及范围广,需要使用极其多的信息内
容和网络技术,才能够稳妥处理好相关事宜,
并不适用于所有人员。一定要防范运维人员
不正当的恶意和高危操作。其次,要提高网
络安全管理效果,熟知大数据环境中数据、
信息所具有的特征,并制定一套规范的数据
维护流程,才是科学使用大数据的根本之道。
4 数据脱敏
4.1 数据脱敏技术的概念
数据脱敏是指从原始环境向目标环境
进行敏感数据交换的过程中,通过一定方法
消除原始环境数据中的敏感信息,并保留目
标环境业务所需的数据特征或内容的数据
处理过程。既能够保障数据中的敏感数据不
被泄露又能保证数据可用性的特性,使得数
据脱敏技术成为解决数据安全与数据经济
发展的重要工具[7]
。在涉及客户安全数据或
者一些商业性敏感数据的情况下,在不违反
系统规则条件下,对真实数据进行改造并提
供测试使用。
4.2 数据脱敏的必要性
根据上文所提,我们要进行改造的数据
是涉及到用户或者企业数据的安全,进行数
据脱敏其实就是对这些数据进行加密,防止
泄露。对于脱敏的程度,一般来说只要处理
到无法推断原有的信息,不会造成信息泄露
即可,如果修改过多,容易导致丢失数据原
有特性。因此在实际操作中,需要根据实际
场景来选择适当的脱敏规则。
4.3 数据脱敏方法与应用举例
按照脱敏规则,可以分为可恢复性脱敏
和不可恢复性脱敏。可恢复性脱敏就是数据
经过脱敏规则的转化后,还再次可以经过某
些处理还原出原来的数据,相反,数据经过
不可恢复性脱敏之后,将无法还原到原来的
样子,可以把二者分别看作可逆加密和不可
逆加密。获得脱敏的数据就两个步骤:【拿到
要输入的数据(user实体)】→【进行序列化】,
所以要进行数据脱敏可以考虑在这两个步
骤上进行实现。第一个方法就是在序列化实
体之前先把需要脱敏的字段进行处理,之后
正常序列化;第二个方法就是在实体序列化
的时候,对要脱敏的字段进行处理。
图1 数据脱敏应用举例(脱敏前)
图2 数据脱敏应用举例(脱敏后)
4.4 数据脱敏技术发展趋势
4.4.1 数据脱敏性能持续提升 伴随着数据
量的与日俱增,数据实时性需求的愈加强烈,
短时间内完成大量数据的脱敏处理将能够
进一步提升企业即时应用数据实现价值的
能力。因此高性能数据脱敏将成为后续数据
脱敏技术发展的一大方向。
4.4.2 脱敏数据类型向非结构化发展 时下
的数据脱敏技术主要面向结构化数据,对于
非结构化数据的支持存在但相对较少。后续
随着人工智能技术的发展,个人图片、视频、
音频等非结构化数据的保存和使用将越来
越多,因此相应的非结构化数据脱敏需求也
将更加丰富。
4.4.3 智能化数据脱敏技术成为趋势 在数
据量不断增长的同时,被收集和利用的数据
维度和种类也在不断增多,需要用户指定脱
敏规则的运行方式将逐渐难以维继。目前已
有少量能够自动识别敏感数据并匹配推荐
脱敏算法的数据脱敏工具,后续随着机器学
习技术的应用,集敏感数据自动化感知、脱
敏规则自动匹配、脱敏处理自动完成等能力
为一体的智能数据脱敏技术将成为新趋势。
4.4.4 结合各级规范助力企业实现合规 数
据脱敏在帮助企业减少敏感数据泄露潜在
危害的同时,还可以确保企业对于个人信息
数据的使用合法合规。随着国家和各行业对
于数据安全立法的持续深入,企业在使用个
人信息时需要符合更多不同规范。因此后续
数据脱敏技术与各级实际规范相结合,形成
能够直接帮助企业实现合规的数据脱敏工
具将成为一大探索方向。
5 数据库漏洞扫描
5.1 系统漏洞及其特性
系统漏洞是在硬件、软件、协议的具体
实现或系统安全策略上存在的缺陷,从而可
以使攻击者能够在未授权的情况下访问或
破坏系统。
漏洞会影响到很大范围的软硬件设备。
在不同的软、硬件设备中,不同系统或同种
系统在不同的设置条件下都会存在各自不
同的安全漏洞问题。
漏洞问题有其时效性。-个系统从发布
的那一天起,随着用户的使用,系统中存在
的漏洞会被不断暴露出来,也会不断被相应
补丁软件修补或在随后发布的新版系统中
纠正。在系统中旧的漏洞被纠正的同时,也
会引入一些新的漏洞和错误。随着时间的推
移,旧的漏洞会不断消失,新的漏洞会不断
出现。漏洞问题将会长期存在。
脱离具体的时间与具体的系统环境来
讨论漏洞问题是毫无意义的。只能针对目标
系统的实际环境来讨论其中可能存在的漏
洞及其可行的解决办法。应该看到,对漏洞
问题的研究必须要跟踪当前最新的计算机
系统及其安全问题的最新发展动态。这一点
与针对算机病毒发展问题的研究相似[8]

5.2 数据库漏扫基本概念
数据库漏扫,也称数据库安全评估系统,
主要功能是为一个或多个数据库创建扫描
任务,用户可以通过自动扫描和手动输入发
现数据库,经授权扫描、非授权扫描、弱口
令、渗透攻击等检测方式发现数据库安全隐
患,形成修复建议报告提供给用户。
数据库漏洞扫描系统,是对数据库系统
进行自动化安全评估的数据库安全产品,能
够充分扫描出数据库系统的安全漏洞和威
胁并提供智能的修复建议,对数据库进行全
自动化的扫描,从而帮助用户保持数据库的
安全健康状态,实现“防患于未然”。
5.3 漏扫方式
网络漏洞扫描器通过远程检测目标主
机 TCP /IP 不同端口的服务,记录目标给予
的应答,来搜集目标主机上的各种信息,然
后与系统的漏洞库进行匹配,如果满足匹配
条件,则认为安全漏洞存在;或者通过模拟
黑客的攻击手法对目标主机进行攻击,如果
模拟攻击成功,则认为漏洞存在。
漏洞扫描引擎一般由警报数据库、漏洞
扫描器、漏洞分析器、漏洞数据库、警报过
滤引擎组成,其结构如图 3 所示。
图 3 漏洞扫描引擎
5.4 系统脆弱性分析
计算机系统脆弱性并不是设计系统的
人员在设计的过程中的故意行为,而可能是
由于设计系统人员知识能力的有限而无法
对计算机系统可能面临的一些危险行为进
行一个准确的预料,或者在设计的时候没有
针对不同的情况进行相应的调整和测试;如
果系统有多个网络或者多台计算机组成,可
能在网络协议方面都存在着脆弱性,一些授
权的规则可能规定的不够完善,这就会严重
影响计算机系统在以后运行中的各种操作
或者信息的传输。
现有的网络漏洞扫描系统,主要是通过
对目标系统的端口进行扫描,得到其所开放
的服务,推测其操作系统和应用软件,检查
它的配置情况,然后依据弱点数据库,推断
出目标系统的安全漏洞,并形成安全评估报
告。它们的缺点是,在安全评估报告中仅仅
罗列出所发现的漏洞,以及每个漏洞的风险
等级,孤立地看待每一个漏洞。但实际上漏
洞之间往往是相互关联的,一个看似无关紧
要的漏洞则可能是多个其他更危险漏洞发
生的基础。一个个静态的、孤立的风险等级
不足以使安全管理员真正了解整个系统的
安全状态,并迅速找到解决问题的关键。因
此,在漏洞扫描中有必要加入系统脆弱性分
析功能。
6 结语
在大数据背景下,数据库的安全保障管
理更加复杂,为了能够更好地适应数据库管
理要求,相关人员要充分发挥大数据技术优
势,结合各种常见的数据库安全问题进行处
置,这样才能有效降低数据库安全事件发生
率,最终适应数据安全管理要求。特别是要
坚持问题导向,着眼于解决大数据下计算机
网络信息安全防护存在的问题,重点在强化
数据保护意识、完善安全防护机制、提升防
护技术水平、创新安全管理模式等诸多方面
加大力度,促进计算机网络信息安全防护实
现更大突破。
参考文献:
[1]洪德华,张翠翠,徐敏,孙佳丽.大数据治理中数据整
理技术的研究和应用[J].现代计算机,2021(07):72-75.
[2]林丽环,黄卫东,朱玉昊.互联网行业数据资产的确
认、计量与处置[J].项目管理技术,2022,20(05):49-54.
[3]彭雪梅,胡洁.浅谈大数据背景下数据库安全保障
体 系 [J]. 电脑知识与技术 ,2022,18(09):11-
12.DOI:10.14004/j.cnki.ckt.2022.0473.
[4]甘丽霞.数据库安全问题与加密技术的应用分析
[J].智库时代,2019(15):253+256.
[5]禹治民.数据库安全分析与加密防护[J].保密科学
技术,2018(07):26-28.
[6]赵佩咏.大数据平台网络安全建设和运维策略探
讨[J].网络安全技术与应用,2022(03):67-69.
[7]唐迪,顾健,张凯悦,顾欣.数据脱敏技术发展趋势
[J].保密科学技术,2021(04):4-11.
[8]李为.谈系统漏洞扫描[J].天津职业院校联合学
报,2007(05):69-72.

来自征文

继续阅读

公众号:pcren_cn(长按复制)

匿名

发表评论

匿名网友