本
文
摘
要
5G与大数据
大数据的表示
一般的将数据分为结构化数据与非结构化数据,结构化数据是指可以以一定形式储存在计算机中可供程序直接使用的数据,而非结构化数据,指那些日常生活中接触到的数据,比如在互联网上普遍存在的亚结构化数据与真实生活场景中的非结构化数据。随着实际网络技术的发展,人们对结构化数据的需求越来越大,一方面非结构化数据向结构化数据的转化的技术不断提高,另一方面结构化数据的表示技术也有所进展。
非结构化数据的转化
对于真实生活场景中的信息化数据,一般将其转化为视频音频以及其他波形图等,这里的数据具有很强的实时交互性。常用的多媒体处理技术主要是BERT ,此外一些用于聚类的无监督学习模型或训练好的模式识别网络也使用广泛。而研究人员主要关注互联网上普遍存在的半结构化数据,尤其是文本数据。
结构化数据的储存
结构化数据的储存一般可以分为传统的数据库储存以及新兴的图数据库储存。对于互联网上大量的结构化数据,若采用传统的数据库储存方法,会出现很稀疏的矩阵,这对数据的储存和计算都带来了不便。传统的文本数据储存是用树结构,不过大多互联网巨头都采用了知识图谱和图数据库的方式储存。
联邦学习
传统的云计算是将终端的数据上传统一上传之云端,在服务器上进行计算,最近提出了一种边缘计算式,在终端上保有一定的脚本,实现对终端数据进行一定处理,之后再上传至云端,这种将云端的计算和存储一定程度上下放至中端的想法,被称为边缘计算。可以说,边缘计算为人工智能提供了广阔的应用场景,其中一个研究重点是连邦学习。
一种标准的连邦学习思路是,终端存有训练模型,对接收的数据进行训练,并将训练得到的参数上传至云端,云端进行加权整合。但是当终端数量过大及模型过小时,将大量终端的模型都上传至云端进行处理,也会消耗大量的通信资源,对此,有学者提出,云端采取用强化学习的思想,选择性地与终端通信获取模型并进行整合。
连邦学习在具体实践的过程中主要存在两个问题,其一是通信效率过低,尽管今年5G技术有一定发展,但对于过大数据量和过多的模型参数处理起来依然存在一定的延迟,为了提高通信效率,可以采用模型分割和知识蒸馏的方法。模型分割是指将神经网络的一些处理环节,分割至终端进行,而知识蒸馏是使用训练好的神经网络去训练更紧凑的神经网络。
联邦学习中的通信安全
通信安全是联邦学习的重要一环,现有技术主要包括传统的加密技术、考虑多方的加密技术以及针对保护用户隐私的差分隐私技术,具体技术可以参考关于联邦学习的文章。