大数据概念-白红宇

大数据概念

阅读量：520 次

发布时间：2019-03-07

本文共 966 字，大约阅读时间需要 3 分钟。

大数据计算技术

大数据概念

大数据概念是一个涵盖多个维度的复杂主题，涉及数据的产生、处理、分析和应用等多个方面。本文将从数据的定义、基本属性、技术特征等多个层面进行深入探讨。

数据的定义与特征

数据的基本定义

在计算机学科中，数据可以被定义为一个可以被理解、处理和存储的实体。数据的形式多样化，来源多样化，范围也呈现多样化特征。数据的转换过程是一个从数据到信息、知识再到价值的过程，这一过程决定了数据的价值。

数据的基本属性

Volume（规模体现）大数据的核心特征之一是数据量的庞大，通常达到petabytes（PB）级别。这种规模带来的影响体现在数据的存储架构和计算模型上：

数据存储架构：传统上依赖于基于行键表格存储格式的关系型数据库，但大数据环境下更倾向于基于分布式文件系统的分布式数据库。

数据计算模型：主要采用离线批处理框架（如MapReduce）和图并行计算框架（如Pregel、Hama），以及大内存计算系统。

Variety（多样性）大数据的另一个关键特征是数据来源的多样性和异构化特性。数据类型划分可以从以下几个维度进行：

结构特征

时效性

关联特性

数据类型

数据来源

数据的多样性带来了数据存储、管理和快速查询的难度。

Velocity（时效性）大数据处理往往需要高度的时效性，这意味着数据分析和处理需要在短时间内完成。

Value（价值密度）传统统计学方法依赖于局部数据或数据子集，而大数据分析则是基于完整数据集进行分析。价值低密度特性使得大数据分析需要依赖机器学习方法，通过数据的积累来训练和改进算法和计算程序。

大数据技术特征

大数据算法特性

数据计算

传统统计学与大数据计算的对比

样本空间：整个数据集

计算方法：机器学习方法

优势：避免样本失真，预测结果的精度改进是一个动态过程。

大数据计算系统特性

基础模型：分布式文件系统、NoSQL非关系型数据库

存储格式：基于键值对的列存储格式与基于主键的行存储格式

优势：支持非结构化或异构数据的存储和处理，支持分布式系统部署，支持超大规模数据集完成快速查询操作。

技术特性总结

大数据技术在算法、计算系统和开发技术方面展现出独特的特征。这些特征不仅体现在技术实现上，更反映在解决实际问题的能力上。理解和掌握这些特征，是在大数据领域发展中不可或缺的基础。

转载地址：http://meznz.baihongyu.com/

你可能感兴趣的文章

opencv glob 内存溢出异常

opencv Hog Demo

opencv Hog学习总结

opencv Mat push_back

opencv putText中文乱码

OpenCV Python围绕特定点将图像旋转X度

Opencv Sift和Surf特征实现图像无缝拼接生成全景图像

opencv SVM分类Demo

OpenCV VideoCapture.get()参数详解

opencv videocapture读取视频cap.isOpened 输出总是false

opencv waitKey() 函数理解及应用

OpenCV 中的图像转换

OpenCV 人脸识别 C++实例代码

OpenCV 在 Linux 上的 python 与 anaconda 无法正常工作.收到未实现 cv2.imshow() 的错误

Opencv 完美配置攻略 2014 (Win8.1 + Opencv 2.4.8 + VS 2013)上

opencv 模板匹配，已解决模板过大程序不工作的bug

OpenCV 错误:(-215)size.width＞0 &&函数imshow中的size.height＞0

opencv&Python——多种边缘检测

opencv&python——高通滤波器和低通滤波器