分布式与并行数据挖掘的比较

分布式与并行数据挖掘的比较 百恒物联 2018-07-18 2293

分布式与并行数据挖掘的比较


  云计算相关技术的飞速发展和高速宽带网络的广泛使用,使得实际应用中分布式数据挖掘的需求不断增长。分布式数据挖掘是数据挖掘技术与分布式计算技术的有机结合,主要用于分布式环境下的数据模式发现,它是物联网要求的数据挖掘,是在网络中挖掘出来的。通过与云计算技术相结合,可能会产生更多、更好、更新的数据挖掘方法和技术手段。


  分布式数据挖掘


  1、分布式数据挖掘的优点


  考虑到商业竞争和法律约束等多方面的因素,在许多情况下,为了保证数据挖掘的安全性和容错性,需要保护数据隐私,将所有数据集中在一起进行分析往往是不可行的。分布式数据挖掘系统能将数据合理地划分为若干个小模块,并由数据挖掘系统并行处理,最后将各个局部的处理结果合成最终的输出模式,这样做可以充分利用分布式计算的能力和并行计算的效率,对相关的数据进行分析与综合,从而节省大量的时间和空间开销。

  2、分布式数据挖掘面临的问题


  ·算法方面:实现数据预处理中各种数据挖掘算法,以及多数据挖掘任务的调度算法。

  ·系统方面:能在对称多处理机(Symmetrical Multi- Processing,SMP)、大规模并行处理机(Massively Parallel Processor,MPP)等具体的分布式平台上实现,考虑节点间负载平衡、减少同步与通信开销、异构数据集成等问题。

  3、分布式数据挖掘的系统分类


  按照不同的角度,分布式数据挖掘系统可以划分为以下几类。

  根据节点间数据分布情况是否同构,可分为同构和异构两类。同构的分布式数据挖掘系统的节点间数据的属性空间相同,异构的分布式数据挖掘系统的节点间数据具有不同的属性空间。

  按照数据模式的生成方式,分布式数据挖掘系统可分为集中式、局部式和重分布式三类。

  ·在集中式分布式数据挖掘系统中,先把数据集中于中心点,再生成全局数据模式,该系统适合模型精度较高,但数据量较小的情况;

  ·在局部式分布式数据挖掘系统中,先在各节点处生成局部数据模式,然后将局部数据模式集中到中心节点生成全局数据模式,该系统适合模型精度较低,但效率较高的情形;

  ·在重分布式数据挖掘系统中,首先将所有数据在各个节点间重新分布,然后按照与局部式系统相同的方法生成数据模式。

  并行数据挖掘与分布式数据挖掘的比较


  并行数据挖掘系统与分布式数据挖掘系统都用网络连接各个数据处理节点,网络中的所有节点构成一个逻辑上的统一整体,用户可以对各个节点上的数据进行透明存取。

  并行挖掘与分布式挖掘的不同点如下所述:


  1、应用目标不同

  并行数据挖掘中各个处理机节点并行完成数据挖掘任务,以提高数据挖掘系统的整体性能;分布式数据挖掘实现场地自治和数据的全局透明共享,而不要求利用网络中的所有节点来提高系统的处理性能。

  2、实现方式不同

  并行数据挖掘中各节点间可以采用高速网络连接,节点间的数据传输代价相对较低;分布式数据挖掘的各节点间一般采用局域网或广域网相连,网络带宽较低,点到点的通信开销较大。

  3、各节点的地位不同

  并行数据挖掘的各节点是非独立的,在数据处理中只能发挥协同作用,而不能有局部应用,适合算法内并行;分布式数据挖掘系统的各节点除了能通过网络协同完成全局事务外,每个节点都可以独立运行自己的数据挖掘任务,执行局部应用,具有高度的自治性,适合不同算法之间的并行。

  云计算通过廉价的PC服务器,可以管理大数据量与大集群,其关键技术在于能够对云内的基础设施进行动态按需分配与管理。云计算的任务可以分割成多个进程,在多台服务器上并行计算,然后得到最终结果,其优点是对大数据量的操作性能非常好。从用户角度来看,并行计算是由单个用户完成的,分布式计算是由多个用户合作完成的,云计算是可以在没有用户参与指定计算节点的情况下,交给网络另一端的云计算平台的服务器节点自主完成计算的,这样云计算就同时具备了并行计算与分布式计算的特征。
400-680-9298,0791-88117053
扫一扫关注百恒网络微信公众号
欢迎您的光顾,我们将竭诚为您服务×
售前咨询 售前咨询
 
售前咨询 售前咨询
 
售前咨询 售前咨询
 
售前咨询 售前咨询
 
售前咨询 售前咨询
 
售后服务 售后服务
 
售后服务 售后服务
 
×