/hadoop-04
编程札记

hadoop-04

MapReduce概述MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种。 | NULL |...

/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98-04-%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99
编程札记

数据挖掘-04-关联规则

关联规则关联规则概述关联规则依据大量数据中存在的特定关系,通过对数据的分析,发现之间的联系。已经在电商、零售、大气物理、生物医学等多个方面有了广泛的应用。 关联规则的概念和定义关联规则概念最早是由Agrawal等人在1993年首先提出...

/Hadoop-03
编程札记

Hadoop-03

分布式数据库HBase概述从BigTable说起BigTable是一个分布式存储系统BigTable起初用于解决典型的互联网搜索问题 建立互联网索引1 爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里2 MapRe...

/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98-03-%E8%81%9A%E7%B1%BB
编程札记

数据挖掘-03-聚类

聚类聚类概述概述聚类是一个将数据集划分为若干组或簇的过程,使得同一类的数据对象之间的相似度较高,而不同类的数据对象之间的相似度较低。这里的类,也叫簇(cluster),是相似数据的集合。 聚类的过程把相似数据归并到一类的过程,形成同类...

/Hadoop-02
编程札记

Hadoop-02

HDFS分布式文件系统HDFS的简介Hadoop的核心是HDFS和MapReduce。其中,HDFS是解决海量大数据文件存储的问题,是目前应用最广泛的分布式文件系统。 HDFS的演变HDFS 源于 Google 在2003年10月份发...

赞助喵
非常感谢您的喜欢!
赞助喵
分享这一刻
让朋友们也来瞅瞅!