`
coderplay
  • 浏览: 571912 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

关于分布式lucene

阅读更多

有NFS, haproxy/lvs等解决方案。

或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统

 

为什么不用hadoop的HDFS?

原因有三:

1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。

2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。

3. 以后hadoop的底层可能会建立一个抽象层。这个抽象层可以适用于各种不同的存储方式(不光是HDFS)和并行处理服务。

 

另外,自己建立一个lucene特有的索引存储,可以加深对hadoop架构的认识。

 

基本设计

 

占个位先

分享到:
评论
2 楼 27g 2011-10-18  
关于Hadoop的src\contrib\index的问题想请教您一下,已经给您发了短消息,而且微博也关注了您并留言,希望您能帮帮我。qq:984419213
1 楼 beijing.josh 2008-10-30  
分布式lucene一般的话都在reduce时调用localFS写完index后copy到HDFS。实例看Hadoop的src\contrib\index。
2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。
可以把一个索引打成一个压缩包存储在HDFS中。
搜索节点从HDFS拷贝压缩包到本地目录,解压到一个目录后launch搜索服务。
另有个项目katta是做分布式搜索的,可去katta.sourceforge.net看看。

没有开放注册用户发文章的权限是因为怕有人乱发文章,如果你需要我可以给你开一个。
forum和wiki正在整合中,不久将开放。

感谢关注。

马士华

相关推荐

Global site tag (gtag.js) - Google Analytics