淘先锋技术网

首页 1 2 3 4 5 6 7

数据的核心价值体现在哪里?

一、大数据发展现状

1. 什么是大数据

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据是一种需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

2. 大数据战略意义

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

3. 大数据发展现状

大数据相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善,其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。

当互联网技术发展到今天,大数据和云计算早已渗透我们生活。大数据以“降低信息不对称和提高决策有效性”为目标,可广泛作用于几乎所有行业,必将掀起一场新的革命。目前,大数据已经迎来了高速发展的黄金成长期,作用正在日渐也凸显,我们看好其发展趋势,推荐投资者提高对其中孕育机会的关注度。

从源到流看,大数据涵盖数据入口、数据融合处理、数据应用三个过程;按照物理分层,大数据又可以分为硬件、基础软件、应用软件和信息服务四个维度。每一个细分领域都正在不断演进,存在不少问题也孕育着巨大的机会,万千创业者不断地寻找着新的突破口。

二、大数据的核心价值

大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。就理论上而言,在足够小的时间和空间尺度上,对现实世界数字化,可以构造一个现实世界的数字虚拟映像,这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下,对这个数字虚拟映像的深度分析,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。

大数据的价值体现在以下几个方面:

(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;

(2)做小而美模式的中小微企业可以利用大数据做服务转型;

(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

三、大数据核心技术

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

一个完整的大数据分析工作流程大致包括以下几方面:

大数据收集与导入 → 大数据清洗与质量控制 → 大数据管理与存储 → 大数据分析与可视化 → 大数据建模与模型管理

1. 大数据收集与导入

大数据的收集与导入就是把数据写入数据库。在深度学习兴起之前,“数据”大多是结构化数据(表格);而到了大数据时代,“数据”不只是结构化数据,更多的是非结构化数据(图片,声音,视频)。随着需要收集的数据量的增大,数据的实时收集、实时处理变得不是那么容易。

大数据采集是各种不同数据源的数据进入大数据系统的第一步,这个步骤的性能将会直接决定在一个给定的时间段内大数据系统能够处理的数据量的能力。数据采集过程中的一些常见步骤是:解析步骤去重,数据转换,并将其存储到某种持久层,涉及数据采集过程的逻辑。

大数据采集工具需要满足以下目标和要求:

高性能:处理大数据的基本要求,如每秒处理几十万条数据

海量式:支持TB级甚至是PB级的数据规模

实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别

分布式:支持大数据的基本架构,能够平滑扩展

易用性:能够快速进行开发和部署

可靠性:能可靠的处理数据

为了解决这些问题,目前流行的工具有以下几种:

Spark

Spark流是对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理。数据可以由多个源取得,例如:Kafka,Flume,Twitter,ZeroMQ,Kinesis或者TCP接口,同时可以使用由如map,reduce,join和window这样的高层接口描述的复杂算法进行处理。最终,处理过的数据可以被推送到文件系统,数据库和HDFS。

理与

Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于Hadoop的批处理系统、低延迟的实时系统、Storm/Spark流式处理引擎,Web/Nginx日志、访问日志,消息服务等。

Kafka有如下特性:

高吞吐量、低延迟:Kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。

可扩展性:Kafka集群支持热扩展

持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失

容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)

高并发:支持数千个客户端同时读写

Flume

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

Flume具有如下优势:

Flume可以将应用产生的数据存储到任何集中存储器中,比如HDFS,HBase

当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据.

提供上下文路由特征

Flume的管道是基于事务,保证了数据在传送和接收时的一致性.

Flume是可靠的,容错性高的,可升级的,易管理的,并且可定制的。

2. 大数据质量控制

围绕完整性、准确性、一致性、及时性监控分析数据质量问题、提升企业数据质量。从数据接入、数据加工、数据导出、指标、数据应用实现全链路血缘跟踪、提前预判数据是否能够准时产出、了解任务失败后影响分析以及快速地修复。

3. 大数据管理与存储

目前,大数据主要来源于搜索引擎服务、电子商务、社交网络、音视频、在线服务、个人数据业务、地理信息数据、传统企业、公共机构等领域。

因此数据呈现方法众多,可以是结构化、半结构化和非结构化的数据形态,不仅使原有的存储模式无法满足数据时代的需求,还导致存储管理更加复杂。

大数据的价值密度相对较低,以及数据增长速度快、处理速度快、时效性要求也高,在这种情况下如何结合实际的业务,有效地组织管理、存储这些数据以能从浩瀚的数据中,挖掘其更深层次的数据价值,需要亟待解决。大规模的数据资源蕴含着巨大的社会价值,有效管理数据,对国家治理、社会管理、企业决策和个人生活、学习将带来巨大的作用和影响,因此在大数据时代,必须解决海量数据的高效存储问题。

大数据存储工具如下:

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。ElasticSearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

4. 大数据分析与可视化

数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。

大数据分析与可视化工具主要有:QlikView,Klipfolio,Tableau,Geckoboard,Power BI和Google Data Studio等。

5. 大数据建模与模型管理

大数据建模功能会涉及哪些工作?

第一步是业务理解和业务梳理,将业务问题抽象成数学问题。

对应的是需求和产品的职位,要求业务沟通能力,要求对所在行业的业务知识和运营有了解。

第二步,数据探索。

一般在和业务初步确实问题后要取数据,做数据探索,确定和证实前期的问题是不是真问题,还是假需求,如果是真问题,则确定下一步问题方向。这一步要求数据库,探索性数据分析,问题分析等技能。相应的是BI的职位,有些公司统称数据分析。

第三步,数学建模。

也就是核心的数据挖掘算法。在工业届,都有现在的工具,主要时间都花在特征挖掘和调参方面。

第四步,提出解决方案。

大数据模型部分工具举例如下:

Power Designer

ER/Studio

Sparx Enterprise Architect

CA Erwin

IBM - InfoSphere Data Architect

四、大数据未来的发展机遇

目前制约大数据更好更快发展的主要问题有以下几点:

一是数据的归属权不清晰,各家数据资产型企业私密占有平台数据,制约着大数据的融合及发展;

二是数据有效性将直接影响到大数据的应用水平,从源数据到分析样本的采集过程需要大量人工干预;

三是配套软硬件成熟度不够:适宜处理海量数据的数据库软件尚未成熟,私有云的普及程度也不高;

四是数据尚未获得真正意义上的定价和产业化。

现在已经有越来越多的行业和技术领域需求大数据分析系统,例如金融行业需要使用大数据系统结合 VaR(value at risk) 或者机器学习方案进行信贷风控,零售、餐饮行业需要大数据系统实现辅助销售决策,各种 IOT 场景需要大数据系统持续聚合和分析时序数据,各大科技公司需要建立大数据分析中台等等。

java 数据挖掘算法,数据的核心价值体现在哪里