博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop day 1
阅读量:7044 次
发布时间:2019-06-28

本文共 1126 字,大约阅读时间需要 3 分钟。

hadoop是什么?

解决的问题:

  海量数据的存储(HDFS):供hbase,mapreduce进行处理

  海量数据的分析(MapReduce)

  资源管理调度(YARN)

搜索引擎:

  爬虫系统+站内搜索

  爬虫对html网页进行抓取,数据量较大,需要进行海量数据存储,传统存储手段已经无法满足需求

 

hadoop具体能干什么

1.擅长海量日志分析

海量数据存储的解决方案:

程序执行相关命令:

向hdfs中上传文件至根目录:hadoop fs -put filename hdfs://hostname:port/ 从hdfs中下载文件:hadoop fs -get hdfs://hostname:port/filename 创建目录:hadoop fs -mkdir hdfs://hostname:port/wordcount 查看目录下的类容:    -ls 查看某个文件的类容:  -cat 执行mapreduce程序: hadoop jar filename.jar pi 5 5

2.hdfs的实现机制

hdfs通过分布式集群来存储文件,为客户端提供了一个便捷的访问方式,就是一个虚拟的工作目录

文件存储到hdfs集群中去的时候是被切分成block的

文件的block存放在若干台datanode节点上

hdfs文件系统中的文件与真实的block之间有映射关系,由namenode管理

namenode记录每个文件在datanode所存放的位置

每个block在集群中会存储多个副本,好处是可以提高数据的可靠性和访问的吞吐量

 

3.mapreduce

hadoop fs -mkdir hdfs://hostname:9000/wordcount

hadoop fs -mkdir /wordcount/input

hadoop fs -mkdir /wordcount/output

hadoop fs -put test.txt /wordcount/input  将文件放到hdfs中

hadoop jar filename.jar  wordcount /wordcount/input /wordcount/output

 

4.hdfs实现机制

将文件分块放置于不同的DataNode下:DataNode的路径如下/hadoop/data/dfs/data/,每个block在集群中会存储多个副本

NameNode中记录了元数据所存放的位置,客户端通过namenode对分布式的数据进行操作

hdfs文件的内容不能修改

 

转载于:https://www.cnblogs.com/lvjygogo/p/8537046.html

你可能感兴趣的文章
Redis内存压缩实战
查看>>
java-Spring 管理bean例子
查看>>
解决关于ios访问相机闪退问题
查看>>
利用ST MCU内部的基准参考电压监测电源电压及其它
查看>>
MySQL 按指定字段自定义列表排序
查看>>
MySQL字段数据全部查出【只保留中文、英文、数字、空格的词表】
查看>>
svn 创建分支、切换分支 及 合并分支 操作
查看>>
[GIt] 团队工作效率分析工具gitstats
查看>>
写给新人的面向对象的基本思维
查看>>
关于分部视图(Partial View)
查看>>
DNS污染——domain name的解析被劫持了返回无效的ip
查看>>
一步一步写一个简单通用的makefile(二)
查看>>
sunspot使用
查看>>
Zombie.js Insanely fast, headless full-stack testing using Node.js
查看>>
POJ2406-Power Strings(kmp循环节)
查看>>
BCM路由全智能固件升级软件tftp,一键刷路由及常用固件下载
查看>>
个人认识:直接断电和发送复位信号给主板有啥区别?
查看>>
测试体会:WAYOS新架构(即二代QOS)的新功能解释
查看>>
UVA 10169 Urn-ball Probabilities !
查看>>
每日一例,练就编程高手
查看>>