关于分布式lucene - Everything can be distributed - ITeye博客

`

coderplay

浏览: 571912 次
性别:
来自: 广州杭州

最近访客更多访客>>

x_h_j123

liuxiao723846

汀雨晓洛

springcdma

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

bohc：谢谢，搞了两天了，现在才算是找到问题所在，解决了。
文件在使用FileChannel.map后不能被删除(Windows上)
zhang0000jun：在jdk1.8中执行正好和楼主的结果相反，请指教
从Java视角理解CPU缓存(CPU Cache)
在世界的中心呼喚愛： forenroll 写道请问楼主的那个分析工具cachemis ...
从Java视角理解CPU缓存(CPU Cache)
xgj1988：我这里打出的结果是： 0 L1-dcache-load-mis ...
从Java视角理解CPU缓存(CPU Cache)
thebye85：请教下大神，为什么频繁的park会导致大量context sw ...
从Java视角理解CPU上下文切换(Context Switch)

关于分布式lucene

博客分类：

lucene&nutch

lucene Hadoop .net

阅读更多

有NFS, haproxy/lvs等解决方案。

或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统

为什么不用hadoop的HDFS?

原因有三:

1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。

2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小，所以用HDFS存储不是很有效。

3. 以后hadoop的底层可能会建立一个抽象层。这个抽象层可以适用于各种不同的存储方式(不光是HDFS)和并行处理服务。

另外，自己建立一个lucene特有的索引存储，可以加深对hadoop架构的认识。

基本设计

占个位先

分享到：

lucene2.3.2与2.2.0建索引的速度比较 | 职友集的搜索

2008-07-07 14:15
浏览 6635
评论(2)
查看更多

评论

2 楼 27g 2011-10-18

关于Hadoop的src\contrib\index的问题想请教您一下，已经给您发了短消息，而且微博也关注了您并留言，希望您能帮帮我。qq：984419213

1 楼 beijing.josh 2008-10-30

分布式lucene一般的话都在reduce时调用localFS写完index后copy到HDFS。实例看Hadoop的src\contrib\index。
2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小，所以用HDFS存储不是很有效。
可以把一个索引打成一个压缩包存储在HDFS中。
搜索节点从HDFS拷贝压缩包到本地目录，解压到一个目录后launch搜索服务。
另有个项目katta是做分布式搜索的，可去katta.sourceforge.net看看。

没有开放注册用户发文章的权限是因为怕有人乱发文章，如果你需要我可以给你开一个。
forum和wiki正在整合中，不久将开放。

感谢关注。

马士华

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于文本聚类与分布式Lucene的知识检索.pdf: #资源达人分享计划#

基于lucene和nutch的开源搜索引擎资料集合: JAVA_Lucene_in_Action教程完整版.doc Java开源搜索引擎.doc Linux下Nutch分布式配置和使用.pdf Lucene+Nutch源码.rar Lucene学习笔记.doc nutch_tutorial.pdf nutch二次开发总结.txt nutch入门.pdf nutch入门学习....

lucene+hadoop_分布式搜索运行框架.pdf: lucene+hadoop_分布式搜索运行框架.

基于文本聚类与分布式Lucene的知识检索 (2013年): 针对传统集中式索引处理大规模数据的性能和效率问题，提出了一种基于文本聚类的检索...实验结果表明，所提方案能够有效地缓解大规模数据建索引和检索的压力，大幅提高分布式检索性能，同时保持着较高的准确率和查全率。

基于Lucene的分布式并行索引.pdf: #资源达人分享计划#

lucene + hadoop 分布式搜索运行框架 Nut 1.0a8: NULL 博文链接：https://catastiger.iteye.com/blog/811985

lucene排序、设置权重、优化、分布式搜索.pdf: lucene排序、设置权重、优化、分布式搜索.pdf

Hadoop+HBase+Hive+lucene分布式搜索引擎分析系统: Hadoop+HBase+Hive+lucene分布式搜索引擎分析系统

基于Lucene的分布式搜索设计说明书: 基于Lucene的分布式搜索设计说明书，讲的设计内容很详细，很适于学习。

分布式搜索引擎Elasticsearch开发实战基础篇（ElasticSearch、ELK、搜索引擎、Lucene）.rar: 分享一套完整版视频课程——分布式搜索引擎Elasticsearch开发实战基础篇（ElasticSearch、ELK、搜索引擎、Lucene），本教程旨在带领大家进入搜索引擎领域，从无到有，深入浅出的讲解了什么是搜索引擎，搜索引擎的...

从lucene到Elasticsearch Lucene6.0，Elasticsearch 5.4: 从检索核心概念入手介绍Lucene与分布式搜搜服务器Elasticsearchd额相关技能

Lucene介绍，全文检索: 基于Java的全文索引引擎Lucene简介：关于作者和Lucene的历史全文检索的实现：Luene全文索引和数据库索引的比较中文切分词机制简介：基于词库和自动切分词算法的比较具体的安装和使用简介：系统结构介绍和演示 ...

lumongo：使用Lucene和MongoDB进行分布式实时搜索: 使用Lucene进行分布式实时搜索 LuMongo是基于Lucene的实时分布式搜索和存储系统。 LuMongo从头开始设计，可以在服务器之间垂直和水平扩展。 LuMongo将Lucene索引直接存储到MongoDB中。文档可以本地存储在MongoDB中...

分布式图形数据库 Titan.zip: 分布式存储的复制，高容错性4,支持很多字符集和热备份5,支持 ACID 和 eventual consistency（最终一致性）6,支持的索引ElasticSearchApache Lucene7,内置实现 TinkerPop graph APIGremlin graph query ...

开源分布式数据库Hadoop PPT: 开源分布式数据库Hadoop PPT，Hadoop 使用了POSIX的设计来实现对文件系统文件流的读取。HDFS（Hadoop FileSystem）原来是Apache Nutch搜索引擎（从Lucene发展而来）开发的一个部分，后来独立出来作为一个Apache子...

Hadoop分布式合集【精品】【免积分】: Hadoop是Apache Lucene下的一个子项目，它最初是从Nutch项目中分离出来专门负责分布式存储以及分布式运算的项目。简单地说，Hadoop是一个实现可靠、可扩展、分布式运算的开源软件平台，它也是Google著名的分布式文件...

hadoop+lucene几种结合形式: hadoop+lucene 包含和solr、solrcloud对比

Hadoop分布式文件系统：结构与设计: Hadoop 分布式文件系统 (HDFS)是一个设计为用在普通硬件设备上的分布式文件系统。它与现有的分布式文件系统有很多近似的地方，但又和这些文件系统有很...是Hadoop项目的一部分，而这又是Apache的 Lucene项目的一部分。

Elasticsearch分布式搜索模型的实际应用小案例: Elasticsearch是一个开源的分布式搜索和分析引擎，构建在Apache Lucene之上。它提供了一套强大的API和工具，可以实现分布式全文搜索、结构化和非结构化数据分析、日志存储和实时数据可视化等功能。以下是一些...

海量分布式日志检索技术的研究.nh: 2.4关系数据检索引擎和lucene的分析比较.............................................……23 2.4.1在全文检索上的比较...................................................................……23 2.4.2在索引...

Global site tag (gtag.js) - Google Analytics