Hadoop - hadoop介绍

发布时间 2023-05-30 17:33:35作者: HOUHUILIN

Hadoop是什么

Hadoop的发展历史

Hadoop的优势

 

 

 

 

 

 

 

Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上讲,Hadoop通常是指一个更广泛的概念 —— Hadoop生态圈。

 

Hadoop的发展历史

Lucene框架是道格卡丁开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎,包括完整的查询引擎和索引引擎。

2021年年底Lucene称为Apache基金会的一个子项目

对于海量数据的场景,Lucene面对与Google同样的困难,存储数据困难,检索速度慢。

学习和模仿Google解决这些问题的办法:微型版Nutch

可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)

  • GFS => HDFS
  • Map-Reduce => MR
  • BigTable => Hbase

 

Hadoop的优势

  • 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
  • 高扩展性:在集群间分配任务数据,可方便地扩展数以千计的节点。
  • 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
  • 高容错性:能够自动将失败的任务重新分配。