大数据安全前十大挑战

大数据安全前十大挑战杭州安恒信息技术有限公司杨永清 Ppt制作 周吉 大数据安全 前十大挑战 1 分布式编程框架中的安全计算2 非关系数据存储的安全最佳实践3 数据存储安全和事务日志安全4 终端输入验证 过滤5 实时安全监控6 隐私保护的数据挖掘和分析的可扩展性和可组合性7 加密强制数据中心安全8 细粒度的访问控制9 细粒度的审计10 数据起源 1 分布式编程框架中的安全计算 1 分布式编程框架中的安全计算 用例 标题内容 用例 不可信的mappers可以被改变来窥探请求 改变MapReduce的脚本 或改变结果 数据映射器可能包含有意或无意的泄漏 1 分布式编程框架中的安全计算 用例 主要场景 mappers的威胁模型 1 分布式编程框架中的安全计算 分析 确保mappers的可信 有不可信的mappers保护数据 建立信任关系 强制性访问控制 MAC 数据的分离识别技术 通过向计算的输出添加随机噪声 1 分布式编程框架中的安全计算 实现 需解决的问题 2 非关系数据存储的安全最佳实践 每个NoSQL数据库的建立是为了应对分析世界形成的不同的挑战 安全从来没有在设计阶段处理 使用NoSQL数据库的开发人员通常在中间件中嵌入安全 NoSQL数据库在数据库中不提供显示强制安全的任何支持 然而 NoSQL数据库在集群方面对安全实践的鲁棒性带来了额外的挑战 2 非关系数据存储的安全最佳实践 用例 2 非关系数据存储的安全最佳实践 建模 2 非关系数据存储的安全最佳实践 建模 本 2 非关系数据存储的安全最佳实践 实现 3 数据存储和事务日志安全 新的机制需要阻止非授权访问并保持持续可用性 自动分层解决方案不要求追踪数据的存储位置 而这对数据存储安全提出了新的挑战 3 数据存储和事务日志安全 用例 3 数据存储和事务日志安全 建模 3 数据存储和事务日志安全 分析 机密性和完整性 可以用强大的加密技术和消息摘要来实现 可以用来交换签名的消息摘要 以解决潜在的纠纷 通过定期审计和哈希链或持久认证词典 PAD 可以解决用户的新鲜度和可串行写 安全不可信的数据仓库 SUNDR 可以用来检测复制一致性攻击和可串行化 两个 无锁 的协议 线性和并发 已经被提议解决单写多读 SWMR 的问题 然而 SWMR情况相关的问题 超出了本文的范围 广播加密和密钥轮换可以用来提高可扩展性 研究人员已经提议处理出处问题 22 的技术 通过可恢复证明 POR 或可证明的数据占有 PDP 以很高的概率 提高数据的可用性 勾结攻击方面 只要用户不交换私人密钥 基于策略的加密系统 PBES 可以成功地保证无勾结的环境 如果用户愿意交换自己的私人密钥不交换解密的内容 仲裁解密系统可避免勾结攻击 如果用户愿意交换解密的内容 数字版权管理可以防止勾结攻击 最近两个不可抵赖性协议已经被提议解决有争议的问题 分析 3 数据存储和事务日志安全 实现 4 终端输入验证 过滤 4 终端输入验证 过滤 建模 对手可能篡改收集数据的设备 或可能篡改在设备上运行的数据收集应用程序 提供恶意输入到一个中央数据收集系统 操纵输入源 对手可能会危害良性源传输到中央收集系统的数据 例如 通过执行中间人攻击或重放攻击 对手可能会对一个数据采集系统执行ID克隆攻击 如Sybil攻击 1 2 3 4 4 终端输入验证 过滤 分析 4 终端输入验证 过滤 实现 识别Sybil攻击和ID欺骗攻击 然后找出符合成本效益的方式来减轻攻击 采取最大的小心来开发安全的数据采集平台和应用 特别考虑BYOD情景中 将运行在不可信设备上 在中央收集系统开发算法来检测并过滤恶意输入 5 实时安全监控 使用相同的基础设施来数据分析 监控大数据基础架构本身 可以利用大数据技术 大量误报 两个主要的角度 挑战 5 实时安全监控 建模 5 实时安全监控 实现 Hadoop中没有内置的安全监控和分析工具 不同的Hadoop供应商正在开发和宣布 前端系统监控Hadoop的请求 实时监控的解决方案和框架 如NIST的安全内容自动化协议 SCAP 正在慢慢进入大数据领域 实时流 Storm storm 和ApacheKafka 6 隐私保护的数据挖掘和分析的可扩展性和可组合性 建模 大数据存储所在公司的内部员工可以滥用她的访问级别和侵犯隐私政策 一个不受信任的合作伙伴可以滥用他们对数据的访问权限来推断用户的私人信息 共享数据可以被重新识别 6 隐私保护的数据挖掘和分析的可扩展性和可组合性 分析 通过连续监控来进行滥用的检测和阻止 差分隐私 差分隐私 6 隐私保护的数据挖掘和分析的可扩展性和可组合性 实现 静态数据加密 访问控制和授权机制 软件补丁 责任分离和访问日志纪录 匿名数据可以重新识别 7 加密强制数据中心安全 有两个根本不同的方式来控制不同的实体 如个人 组织和系统 对数据的可见性 第一种方法通过限制访问底层系统来控制数据的可见性 如操作系统或虚拟机 第二种方法数据本身封装在加密的保护壳中 7 加密强制数据中心安全 用例 从源头去限定数据的可见性正变得越来越重要 对加密数据进行索引 分析和有意义的处理 确保数据的完整性 7 加密强制数据中心安全 建模 建模 使用加密的密码强制访问控制方法 对手应该不能通过看密文识别对应的明文 对于搜索和过滤加密数据的加密协议 对手除了相应的谓词是否满足应该不能再学到任何东西 对于加密协议 用于对加密数据的计算中 对手不能通过看密文来识别相应的明文数据 对于加密协议 确保数据来自确定来源的完整性 7 加密强制数据中心安全 分析 1 2 3 4 基于身份和属性的加密方法使用加密技术进行强制访问控制 oneh和Waters构建一个公钥系统 支持比较查询 子查询和此类查询的任意结合 2009年 Gentry建成首个全同态加密方案 群签名使个别实体签上自己的数据 但对公众来说只能看到组信息 只有受信任的第三方 可以查出个人的身份 7 加密强制数据中心安全 实现 目前实现基于身份 属性加密方案和群签名的算法使用椭圆曲线组 支持双线性配对图 这使得组元素的表示稍大 此外 配对操作是计算昂贵的 Gentry原来构建完全同态加密 FHE 方案采用多项式环的理想格 虽然格子构建并不十分低效 FHE的计算开销还远远实用 研究正在进行 以找到更简单的结构 效率的提高和部分同态方案满足特定的功能 8 细粒度访问控制 粗粒度的访问机制的问题是 本来可以共享的数据常常被归到一个更严格的类别以保证良好的安全性 细粒度的访问控制使数据管理者可以更精确地共享数据 而不影响保密 8 细粒度访问控制 建模 8 细粒度访问控制 分析 尽可能在基础设施层实现 并适应标准和实践 给定域选择其所需的适当的粒度水平 8 细粒度访问控制 实现 实施细粒度的安全访问 需要跨越大数据生态系统的元素 跟数据一起用于跟踪访问限制的协议是必要的 应该在存储系统中实现 如HDFS和NoSQL数据库 ApacheAccumulo是支持成熟的 单元级的访问控制的NoSQL数据库 9 细粒度审计 合规性要求 例如 PCI 萨班斯 奥克斯利法案 要求金融企业提供细粒度的审计记录 销售公司要访问个人的社交媒体信息来优化在线广告的部署 9 细粒度审计 建模 及时获取审计信息 信息的的完整性 审计信息没有被篡改 所需的审计信息的完全性t 授权审计信息的访问 主要因素 9 细粒度审计 实现 取证或SIEM工具收集 分析和处理这些信息 从单个组件级别开始实施 创建审核层 Orchestrator 10 数据起源 用例 几个关键的安全应用要求数字记录 例如 有关其产生的详细情况 例子包括金融公司检测内幕交易或确定研究调查的数据来源的准确性 这些安全评估本质上是对时间敏感的 要求快速的算法来处理包含此信息的起源元数据 数据来源为审核日志补充合规要求 如PCI或 萨班斯 奥克斯利法案 10 数据起源 建模 出故障的基础设施组件 基础设施的外部攻击 基础设施内部攻击 大数据下数据起源的威胁 10 数据起源 分析 安全起源收集 起源的细粒度访问控制 10 数据起源 实现 快速和轻量级认证技术应该集成到当前的起源 安全通道应在基础设施组件之间建立实现端到端的安全性 细粒度的访问控制