联盟大咖说——分享大数据观点,把握大数据脉络。这里是大数据从业者的品鉴沙龙;是知识共享的饕餮盛宴。群贤毕至,干货纷呈!
分享嘉宾:上海天律信息技术有限公司CTO黄铜
畅谈
最近很火的Master,相信大家都有所了解,其实围棋人机大战背后就是算法,这也是我们最近正在研发的机器学习算法。而今天我着重为大家分享的就是分布式云挖掘分析系统及相关案例。
众所周知随着互联网+理念的不断推进,数据总量呈爆发式增长,预计到年全球数据总量将超过40ZB(相当于4万亿GB)。
截止至年7月,全国已经有23个省市出台了74项与大数据发展相关的政策;形成了5大类数据交易机构;应用模型在超过20个领域广泛应用。
如果把互联网比喻成人类的血管,大数据就是血液,而分析挖掘算法则是最核心的心脏。算法就是大数据的驱动引擎。
当数据量越来越大,传统的基于关系型数据库的分析软件及算法已经不能满足企业需求,为了实现海量数据的分析处理,我们这个分布式云挖掘分析系统应运而生。
技术创新点
1.前瞻性:采用最新的基于分布式云架构的数据分析和挖掘系统(突破了传统算法计算模式,速度不再受限于单台服务器,充分发挥大数据集群中各机器计算性能,从而实现云端海量数据的分析处理,符合市场及客户的长期需求)
2.易用性:完全基于可视化工作流的统计分析和数据挖掘流程,所有算法均采用图形化工作流操作方式,方便用户操作,无需写代码
3.跨平台性:能够无缝集成各类大数据云平台(例如:开源Hadoop、阿里飞天平台ODPS、Cloudera等云平台)
4.科学性:所有算法经过权威认证,结果精准可靠
5.纯国产化:拥有完全自主知识产权
分布式的算法原理
传统计算模式是数据存在服务器的硬盘中,需要计算的时候进入内存中进行计算。硬盘的扩容很容易。但是我们见到的服务器内存一般最多也就G或1T,1T的内存相对见到的都比较少。所以计算速度受限于磁盘的IO(数据需要在硬盘和内存中不停的交换)和内存的大小,当数据量不大时,这种计算模型ok,但是现在是信息爆炸的时代,这种计算模型不能满足客户的需求。
而分布式计算模式下计算能力不再受限于单台服务器的内存大小,简单的说就是把一个大的“任务”分解成很多的小任务,然后交由集群子节点去并行计算,最后将结果反馈(传统的计算模型类似于串行计算)
我们这个分布式云挖掘分析系统主要功能:
1.数据源:无缝集成各类分布式数据源,(hive、hbase等),支持单表、多表操作
2.算法多样性:(包含:数据处理、基础统计、高级统计、机器学习等多类算法,充分满足客户需求)
3.应用模型库:支持模型的建立与保存,已建立的模型支持导出二次开发利用(提供java、c++、.net等接口)
4.系统管理:数据权限管理、模型权限管理
5.分析结果:分析结果采用多样性输出(图、表、文字等),同时计算结果支持导出word、excel、pdf,快速出报表
整个平台能够无缝集成各类大数据云平台例如开源HADDOP、阿里云的ODPS、Cloudera等,支持TB/PB级数据分析。支持移动办公(手机、PAD等);采用拖拽式建立算法模型,无需编码;算法种类全数量多,可以满足客户所有需求。
数据在HIVE上:10亿条记录,68个变量,常规算法(如聚类、描述统计等)半分钟不到出结果;针对迭代次数多的算法,5分钟出结果;当数据量增加到亿条记录,同样是68个变量,3.4T的数据量,常规算法36秒出结果,迭代次数多的算法半小时出结果。显而易见,运算时间没有随着数据量的指数级增长而同比例增长,而这只是基于MR的运算性能,现在马上推出的将是基于Hadoop+Spark的分布式算法,计算速度将得到进一步的提升。
我们也与国际同类产品进行了一个比较:我们的平台有多种分布式算法,算法涵盖多种分类,能够满足客户所有需求;虽然R等开源机构也有分布式算法,但是:
第一、算法数量有限,不能完全覆盖客户的业务需求;
第二、开源算法对计算结果的准确性上不能保证,像开源的Hadoop都存在着很多的小问题;
第三、我们拥有完全自主知识产权,纯国产,在产品调整上更具灵活性;
第四、开源没有服务,在使用的过程中如果遇到一些问题没有服务性可言;
第五、易用性上,使用我们云挖掘产品时,整个建模过程无需编写一句代码,对使用者而言,门槛降低,无需过多的专业知识背景及编程能力;
第六、跨平台性上,无缝集成各类主流云平台:开源Hadoop、ODPS、Cloudera、hdp、等(还有一些国产云平台,这里就不一一列举);
第七、马克威云挖掘平台拥有算法模型库,一次建模,多次利用,建立好的模型,支持保存、修改、调取,支持二次开发,而R等开源算法机构没有。
案例金融数据分析模型
自年从国外引进网络借贷平台模式后,P2P和小贷公司在国内百花齐放,尤其近两三年,更为发展迅猛。但同时,借款人跑路、不按时还贷、客户流失严重等问题也不断显现。在此情况下,上海天律专门针对P2P与小贷公司,开发出金融数据分析模型,为此类企业提供欺诈预警、信用评级、客户流失预警功能。
作为互联网金融借贷平台,无法像传统机构进行完备的线下审核,模型利用多维度(自有、三方及公开)数据,结合训练决策树、聚类、关联规则等机器学习算法,对平台客户进行反欺诈你动态展现和实时预测、客户实时的信用评级以及客户动态流失展现和实时预警。
我们使用了多方面的数据:
1、项目数据:项目期限、项目规模等;
2、行为数据:交易时间、交易频率等;
3、征信数据:第三方征信数据;
4、借贷数据:借贷历史、历史还款时间等;
5、工作信息:职业、年收入等;
6、个人信息:姓名、年龄等个人信息;
通过这些数据,再应用上我们已有的算法,取得了一些很好的应用效果:
反欺诈模型:动态展现欺诈客户及不欺诈客户的分布情况,并对欺诈客户进行实时监测预警;
风险控制:对各借款人按模型计算信用评分,实时展现信用分布情况,并对借款人按信用分值进行评级,进行决策支持;
客户流失:对客户流失情况进行动态展示,包括流失客户分布情况、客户流失影响因素,同时对投资人流失进行分析预测,实现实时预警功能。
团队上海天律信息技术有限公司,成立于年,品牌是马克威,16年来我们只做一件事——专注于数据分析挖掘领域,我们的核心竞争力是拥有自主研发的算法,公司有超过多个具有自主知识产权的算法。
公司有六大产品体系——马克威分析系统(单机版、网络版);马克威云挖掘系统(分布式算法体系);决策支持平台;极速交易系统(将算法和硬件完美融合,适用于金融交易);马克威算法交易平台。
白蒺藜的美容功效北京中科曝光