`
coderplay
  • 浏览: 571874 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

hadoop的几点经验

阅读更多

1. 机器较多时, 编辑各个节点的/etc/hosts文件会很麻烦, 一般会架一个dns服务器进行解析.

2. 实现WritableComparable接口定义自己的写入方式时, 要注意hashCode()方法. 默认是使用Object.hashCode()这样的话, 会用对象的引用做为hashcode. Mapper会将相同key中hashCode()相同的聚在一起发送给Reducer.

比如Text的hashCode实现:

public class Text implements WritableComparable {
...
  /** hash function */
  public int hashCode() {
    return WritableComparator.hashBytes(bytes, length);
  }
...
}

 

这就是WordCount实例为什么相同的字符串为什么会通过Mapper聚在一起的原因了. 

3. Mapper之后会根据key值排序, 使用实现WritableComparable接口的类的compareTo方法,或者注册一个Comparator.参考IntWritable的实现. Mapper不能根据value值排序, 这是mapreduce模型的规定. 所以要对value排序,只能把Mapper的结果inverse过来后,再根据key值排序. 即用InverseMapper与IdentityReducer.

 

 

分享到:
评论
2 楼 dapp66 2010-03-04  
不错,不错,学习了
1 楼 chenlb 2008-10-10  
期待楼主的更多经验

相关推荐

    CentOS7配置有三个结点的Hadoop集群的免密登录总的原则

    CentOS7搭建有三个结点的Hadoop-3.3.2集群的配置免密登录,总的原则有以下几点: 1)、用useradd -m hadoop命令创建hadoop用户 2)、用passwd Hadoop命令设置hadoop密码 3)、用vim /etc/sudoers给hadoop用户分配...

    Hadoop实战中文版.PDF

    24212.4.4 小结 24912.4.5 参考文献 250附录A HDFS文件命令 251构建hadoop运算坚实的平台编辑百度构建了超大规模的服务器集群来运行Hadoop,其中日志处理与分析占到了全部hadoop集群的80%,处理数据量从几个G...

    Hadoop实战(第2版)

    join 7.3 本章小结8 结合R 和Hadoop 进行数据统计8.1 比较R 和MapReduce 集成的几种方法8.2 R 基础知识 8.3 R 和Streaming 8.3.1 Streaming 和map-only R 技术点57 计算股票日平均值8.3.2 Streaming...

    Hadoop入门实战手册

    1.1 ..................................................................................................4 什么是Hadoop? 1.2 ................................................................................

    Hadoop集群配置详细教程

    hadoop配置详细教程,涵盖了Hadoop集群配置从头到尾的所有细节部署,其中注意点已用红色标记,此文档曾用于企业Hadoop集群搭建教程,涵盖了 准备篇---配置篇----启动测试篇---问题篇,解决网络上Hadoop集群配置教程...

    hadoop和hive调优个人总结

    个人在学习和测试hive过程中总结的几点调优新的!

    分布式基础学习hadoop

    它们勾勒出了分布式存储和计算的一个基本蓝图,已可窥见其几分风韵,但终究还是由于缺少一些实现的代码和示例,色彩有些斑驳,缺少了点感性。幸好我们还有OpenSource,还有Hadoop。Hadoop是一个基于Java实现的,开源...

    Hadoop海量网络数据处理平台的关键技术

    近几年,云计算产业飞速发展,大数据处理技术也在不断成熟。与此同时,国内移动互联网市场规模不断扩大,用户数量已经超过5亿,并带来了海量的移动互联网流量数据。在此背景下,如何基于云计算大数据处理技术来承载海量...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    8.1 比较R 和MapReduce 集成的几种方法 8.2 R 基础知识 8.3 R 和Streaming 8.3.1 Streaming 和map-only R 技术点57 计算股票日平均值 8.3.2 Streaming、R 和完整的MapReduce 技术点58 计算股票的...

    Hadoop单机版和全分布式(集群)安装

    单机和集群安装相差不多,先说单机然后补充集群的几点配置。 第一步,先安装工具软件编辑器:vim 代码如下:sudo apt-get install vimssh服务器: openssh,先安装ssh是为了使用远程终端工具(putty或xshell等),这样...

    Hadoop HDFS原理

    从HDFS系统架构、HDFS中守候进程、各进程之间的接口、HDFS中的关键数据结构几个方面进行分析,在此基础上,针对HDFS的启动、读、写和建立检查点几个流程进行了说明。从而可建立对于HDFS的机制的深刻理解。

    hadoop开发者文档

    4、Nutch中mapreduce应用的几个特殊点 ...................... - 14 - 5、Java RMI + Lucene 构建分布式检索应用初探 ................ - 17 - 6、一对多的表关联在mapreduce中的应用(续) .................. - 26 -...

    基于hadoop实现的评价预测系统+源代码+文档说明

    好评 房间 算 整齐 宽敞 我 住 标准间 大床 房 只是 浴室 淋浴 笼头 不太好 出水 不 均匀 洗澡 不 舒服 服务 不错 到 酒店 早上 点 让 我 提前 入住 而且 结账 速度 比较 快 不 耽误时间 酒店 靠近 号 地铁 算 方便...

    大数据技术 Hadoop开发者第二期 MapReduce HDFS Hive Mahout HBase 共64页.pdf

    4、Nutch中mapreduce应用的几个特殊点 ...................... - 14 - 5、Java RMI + Lucene 构建分布式检索应用初探 ................ - 17 - 6、一对多的表关联在mapreduce中的应用(续) .................. - 26 -...

    网站案例分析及Hadoop分布式集群环境(全套视频+课件+代码+讲义+工具)

    01_MapReduce框架处理数据的流程及几点注意 02_编写MapReduce编程模块 03_MapReduce数据类型及自定义数据类型 04_案例:网站基本指标分析(一) 05_案例:网站基本指标分析(二) 06_分布式安装部署:克隆虚拟机及...

    hadooop 权威指南4

    hadoop 实战,详细描述了hadoop的整个生态圈。从hadoop集群的搭建,到mapreduce的开发

    yarn(hadoop2)框架的一些软件设计模式

    这几个模式都写在hadoop-yarn-common中,接下来,我将详细说明这些模式。一个对象肯定有生与死,那在我们设计中如何表示这一点呢?在业务系统中,我们一般是用spring,spring就负责管理对象的生命。在hadoop,我们...

    关于元宇宙发展的几点认识和思考.pdf

    。。。

Global site tag (gtag.js) - Google Analytics