大数据的定义及其特征 大数据需要学什么语言
2019/5/21 16:39:33 互联网
大数据是什么意思
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的特点:
1、容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息;
2、种类(Variety):数据类型的多样性;
3、速度(Velocity):指获得数据的速度;
4、可变性(Variability):妨碍了处理和有效地管理数据的过程。
5、真实性(Veracity):数据的质量
6、复杂性(Complexity):数据量巨大,来源多渠道
大数据需要学习哪些技术?
1、Java——Java可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序,是大数据学习的基础;
2、Linux——大数据开发通常在Linux环境下进行;
3、Hadoop——分布式系统基础架构,用户可以充分利用集群的威力进行高速运算和存储;
4、Avro与Protobuf——数据序列化系统,可以提供丰富的数据结构类型;
5、HBase——分布式的、面向列的开源数据库,是一个适合于非结构化数据存储的数据库;
6、ZooKeeper——Hadoop和Hbase的重要组件;
7、Hive——基于Hadoop的一个数据仓库工具 ;
8、phoenix——用Java编写的基于JDBC API操作HBase的开源SQL引擎;
9、Redis——key-value存储系统;
10、Flume——高可用、高可靠、分布式的海量日志采集、聚合和传输的系统;
11、SSM——Spring、SpringMVC、MyBatis三个开源框架;
12、Kafka——一种高吞吐量的分布式发布订阅消息系统;
13、Spark——专为大规模数据处理而设计的快速通用的计算引擎 ;
14、Scala——大数据开发重要框架的编程语言;
15、Azkaban——可完成大数据流任务调度;
16、Python与数据分析——可用于数据采集、数据分析以及数据可视化;