search
HomeDatabaseMysql TutorialCloudera Search: 轻松实现Hadoop全文检索

近期Cloudera Search的推出,对于曾经做信息检索和使用过Lucene/Solr的我来讲,虽然不是那种令人乍舌的新技术,但从应用层面来考虑,我相信,对于业界而言,毫无疑问是一个相当令人兴奋的消息。想想看,有了集一整套解决方案在手的ClouderaSearch在手,现在

近期Cloudera Search的推出,对于曾经做信息检索和使用过Lucene/Solr的我来讲,虽然不是那种令人乍舌的新技术,但从应用层面来考虑,我相信,对于业界而言,毫无疑问是一个相当令人兴奋的消息。想想看,有了集一整套解决方案在手的Cloudera Search在手,现在任何人都可以轻而易举地像使用谷歌百度那样对存储在Hadoop里面的数据进行全文检索了!


Cloudera Search核心部件包括Hadoop和Solr,后者建立在Lucene之上;而Hadoop也正是在06年正式成为Lucene的一个子项目而发展起来的。现在,我们喜见这两个技术再度联手,为更多的用户提供了轻松利用存储在Hadoop里面的海量数据来获取信息和价值的利器,可以预见,包括企业内部及外部在内的,更多的企业应用将可以围绕Hadoop来展开。


下面是一个简单的Cloudera Search组件示意图。

Cloudera Search: 轻松实现Hadoop全文检索


通过Tika, Cloudera Search支持大量的被广泛使用的文件格式;除此之外,Cloudera Search还支持很多其他在Hadoop应用中常用的数据,譬如Avro, SequenceFile, 日志文件等。


用来建立索引和全文检索的数据可以是来自于HDFS,譬如日志文件,Hive或者HBase的表等等(通过集成NGData的Lily项目,对HBasae的支持工作也在进行中)。或者通过结合使用Flume采集于外部数据源,通过一个新支持的Flume Sink直接写到索引库里;同时还可以充分利用Flume来对要建立索引的数据进行各种预处理,譬如转换,提取创建元数据等。

?

建立的索引存储于HDFS。这给搜索带来了易于扩展,冗余和容错的好处。


此外,我们还可以运行MapReduce来对我们所需要检索的数据进行索引,提供给Solr。


大多数情况下, Zookeeper被用来协调各种数据的分布(参考 http://wiki.apache.org/solr/SolrCloud),并提供在系统出错的情况下自动切换,提高可靠性。


在系统安装和部署方面,Cloudera Manager可以被用来简化繁琐枯燥的工作,并提供了管理和监控搜索服务的功能。


用户接口上,搜索用户可以使用HUE的搜索界面进行查找操作。或者可以使用命令行工具或者Solr的GUI界面。


目前Cloudera Search还处于测试阶段,性能方面,一个服务器可以支持多达几亿个文档和接近TB的索引,搜索结果通常会在1至2秒之间返回。我们期待稳定版本的早日发布。

http://training.cloudera.com/elearning/SearchOverview/


http://www.cloudera.com/content/support/en/documentation/cloudera-search/cloudera-search-documentation-v1-latest.html


http://wiki.apache.org/solr/

?

http://wiki.apache.org/solr/SolrCloud

?


Cloudera Search: 轻松实现Hadoop全文检索? 青春就应该这样绽放?? 游戏测试:三国时期谁是你最好的兄弟!!?? 你不得不信的星座秘密 Cloudera Search: 轻松实现Hadoop全文检索

Cloudera Search: 轻松实现Hadoop全文检索

Statement
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn
如何在PHP中实现SEO优化如何在PHP中实现SEO优化May 20, 2023 pm 01:30 PM

随着互联网的发展,SEO(SearchEngineOptimization,搜索引擎优化)已经成为了网站优化的重要一环。如果您想要使您的PHP网站在搜索引擎中获得更高的排名,就需要对SEO的内容有一定的了解了。本文将会介绍如何在PHP中实现SEO优化,内容包括网站结构优化、网页内容优化、外部链接优化,以及其他相关的优化技巧。一、网站结构优化网站结构对于S

初学者也能轻松掌握:PyQT安装指南详细解析初学者也能轻松掌握:PyQT安装指南详细解析Feb 18, 2024 pm 06:06 PM

小白也能轻松上手:PyQT安装教程详解PyQT是一款基于Python语言的GUI开发工具包,它可以帮助开发者快速、简单地创建各种美观的图形用户界面。对于想要从零开始学习PyQT的初学者来说,安装PyQT可能是一个比较困难的第一步。本文将详细介绍PyQT的安装步骤,并提供具体的代码示例,帮助小白轻松上手。第一步:安装Python在安装PyQT之前,首先需要确保

如何在PHP中实现ERP系统如何在PHP中实现ERP系统May 20, 2023 pm 06:21 PM

随着电子商务和企业管理的发展,许多企业开始寻找更好的方法来处理其日常业务流程。ERP系统是一种能够整合企业各种业务流程的软件工具。它提供了全面的功能,包括生产、销售、采购、库存、财务等方面,帮助企业提高效率、控制成本和提高客户满意度。而在PHP编程语言中,也能够实现ERP系统,这就需要我们掌握一些基本的知识和技术。下面,我们将深入探讨如何在PHP中实现ERP

在PHP中如何实现物联网开发?在PHP中如何实现物联网开发?May 12, 2023 am 11:51 AM

随着物联网技术的发展和普及,越来越多的应用场景需要使用PHP语言进行物联网开发。PHP作为一种广泛应用于Web开发的脚本语言,它的易学易用、开发速度快、可扩展性强等特点,使其成为开发物联网应用的一种优秀选择。本文将介绍在PHP中实现物联网开发的常用技术和方法。一、传输协议和数据格式物联网设备通常使用TCP/IP或UDP协议进行数据传输,而HTTP协议是一个优

如何在PHP中实现CRM系统如何在PHP中实现CRM系统May 20, 2023 pm 12:31 PM

随着企业的发展,客户管理变得越来越重要。为了提高客户满意度和忠诚度,越来越多的企业采用客户关系管理系统(CRM)来帮助其管理客户关系。而PHP是一种流行的编程语言,因其简单易学、灵活和强大而被广泛应用于Web开发。那么,如何在PHP中实现CRM系统呢?本文将为您介绍实现CRM系统的步骤和技巧。Step1:需求分析在开始开发CRM系统之前,您需要进行需求分析

如何在PHP中实现验证码如何在PHP中实现验证码May 20, 2023 am 11:31 AM

随着互联网的不断发展,越来越多的网站需要使用验证码来保证安全性。验证码是一种借助人类能力而无法被计算机破解的认证技术,广泛应用于网站注册、登录、找回密码等功能中。下面将介绍如何使用PHP实现验证码功能。一、生成验证码图片验证码图片的生成是验证码功能的核心,需要生成一个随机字符,并将其渲染为图像展示给用户。在PHP中,可以使用GD库来生成图片。GD库是一种用于

在PHP中如何实现智能合约?在PHP中如何实现智能合约?May 12, 2023 am 08:09 AM

智能合约(SmartContract)是一种基于区块链的自动化交易程序,可以实现自动化执行、验证和执行交易。智能合约可以减少交易中的人为干扰,提高交易的安全性和效率。在不同的区块链中,智能合约的实现方式略有不同。本文将介绍在PHP中如何实现智能合约。PHP是一种广泛使用的编程语言,特别适合Web开发。PHP有着成熟的开源生态系统,以及许多可靠的框架和库。在

在PHP中如何实现OA开发?在PHP中如何实现OA开发?May 12, 2023 am 08:36 AM

随着现代企业管理的需求与时俱进,各种管理软件如ERP、CRM、HRM和OA等软件的使用已经变得越来越普遍。特别是办公自动化(OA)软件,已经成为企业必不可少的一部分。随着PHP发展的越来越成熟,越来越多的企业开始使用PHP作为开发OA软件的工具,并取得了很好的效果。那么,在PHP中如何实现OA开发呢?确定OA的需求在开始OA的开发之前,必须先明确自己的OA需

See all articles

Hot AI Tools

Undresser.AI Undress

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress AI Tool

Undress images for free

Clothoff.io

Clothoff.io

AI clothes remover

AI Hentai Generator

AI Hentai Generator

Generate AI Hentai for free.

Hot Article

Hot Tools

Dreamweaver CS6

Dreamweaver CS6

Visual web development tools

DVWA

DVWA

Damn Vulnerable Web App (DVWA) is a PHP/MySQL web application that is very vulnerable. Its main goals are to be an aid for security professionals to test their skills and tools in a legal environment, to help web developers better understand the process of securing web applications, and to help teachers/students teach/learn in a classroom environment Web application security. The goal of DVWA is to practice some of the most common web vulnerabilities through a simple and straightforward interface, with varying degrees of difficulty. Please note that this software

WebStorm Mac version

WebStorm Mac version

Useful JavaScript development tools

Atom editor mac version download

Atom editor mac version download

The most popular open source editor

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

This project is in the process of being migrated to osdn.net/projects/mingw, you can continue to follow us there. MinGW: A native Windows port of the GNU Compiler Collection (GCC), freely distributable import libraries and header files for building native Windows applications; includes extensions to the MSVC runtime to support C99 functionality. All MinGW software can run on 64-bit Windows platforms.