近期Cloudera Search的推出,对于曾经做信息检索和使用过Lucene/Solr的我来讲,虽然不是那种令人乍舌的新技术,但从应用层面来考虑,我相信,对于业界而言,毫无疑问是一个相当令人兴奋的消息。想想看,有了集一整套解决方案在手的ClouderaSearch在手,现在
近期Cloudera Search的推出,对于曾经做信息检索和使用过Lucene/Solr的我来讲,虽然不是那种令人乍舌的新技术,但从应用层面来考虑,我相信,对于业界而言,毫无疑问是一个相当令人兴奋的消息。想想看,有了集一整套解决方案在手的Cloudera Search在手,现在任何人都可以轻而易举地像使用谷歌百度那样对存储在Hadoop里面的数据进行全文检索了!
Cloudera Search核心部件包括Hadoop和Solr,后者建立在Lucene之上;而Hadoop也正是在06年正式成为Lucene的一个子项目而发展起来的。现在,我们喜见这两个技术再度联手,为更多的用户提供了轻松利用存储在Hadoop里面的海量数据来获取信息和价值的利器,可以预见,包括企业内部及外部在内的,更多的企业应用将可以围绕Hadoop来展开。
下面是一个简单的Cloudera Search组件示意图。
通过Tika, Cloudera Search支持大量的被广泛使用的文件格式;除此之外,Cloudera Search还支持很多其他在Hadoop应用中常用的数据,譬如Avro, SequenceFile, 日志文件等。
用来建立索引和全文检索的数据可以是来自于HDFS,譬如日志文件,Hive或者HBase的表等等(通过集成NGData的Lily项目,对HBasae的支持工作也在进行中)。或者通过结合使用Flume采集于外部数据源,通过一个新支持的Flume Sink直接写到索引库里;同时还可以充分利用Flume来对要建立索引的数据进行各种预处理,譬如转换,提取创建元数据等。
?
建立的索引存储于HDFS。这给搜索带来了易于扩展,冗余和容错的好处。
此外,我们还可以运行MapReduce来对我们所需要检索的数据进行索引,提供给Solr。
大多数情况下, Zookeeper被用来协调各种数据的分布(参考 http://wiki.apache.org/solr/SolrCloud),并提供在系统出错的情况下自动切换,提高可靠性。
在系统安装和部署方面,Cloudera Manager可以被用来简化繁琐枯燥的工作,并提供了管理和监控搜索服务的功能。
用户接口上,搜索用户可以使用HUE的搜索界面进行查找操作。或者可以使用命令行工具或者Solr的GUI界面。
目前Cloudera Search还处于测试阶段,性能方面,一个服务器可以支持多达几亿个文档和接近TB的索引,搜索结果通常会在1至2秒之间返回。我们期待稳定版本的早日发布。
http://training.cloudera.com/elearning/SearchOverview/
http://www.cloudera.com/content/support/en/documentation/cloudera-search/cloudera-search-documentation-v1-latest.html
http://wiki.apache.org/solr/
?
http://wiki.apache.org/solr/SolrCloud?


原文地址:Cloudera Search: 轻松实现Hadoop全文检索, 感谢原作者分享。

MySQL是一種開源的關係型數據庫管理系統,主要用於快速、可靠地存儲和檢索數據。其工作原理包括客戶端請求、查詢解析、執行查詢和返回結果。使用示例包括創建表、插入和查詢數據,以及高級功能如JOIN操作。常見錯誤涉及SQL語法、數據類型和權限問題,優化建議包括使用索引、優化查詢和分錶分區。

MySQL是一個開源的關係型數據庫管理系統,適用於數據存儲、管理、查詢和安全。 1.它支持多種操作系統,廣泛應用於Web應用等領域。 2.通過客戶端-服務器架構和不同存儲引擎,MySQL高效處理數據。 3.基本用法包括創建數據庫和表,插入、查詢和更新數據。 4.高級用法涉及復雜查詢和存儲過程。 5.常見錯誤可通過EXPLAIN語句調試。 6.性能優化包括合理使用索引和優化查詢語句。

選擇MySQL的原因是其性能、可靠性、易用性和社區支持。 1.MySQL提供高效的數據存儲和檢索功能,支持多種數據類型和高級查詢操作。 2.採用客戶端-服務器架構和多種存儲引擎,支持事務和查詢優化。 3.易於使用,支持多種操作系統和編程語言。 4.擁有強大的社區支持,提供豐富的資源和解決方案。

InnoDB的鎖機制包括共享鎖、排他鎖、意向鎖、記錄鎖、間隙鎖和下一個鍵鎖。 1.共享鎖允許事務讀取數據而不阻止其他事務讀取。 2.排他鎖阻止其他事務讀取和修改數據。 3.意向鎖優化鎖效率。 4.記錄鎖鎖定索引記錄。 5.間隙鎖鎖定索引記錄間隙。 6.下一個鍵鎖是記錄鎖和間隙鎖的組合,確保數據一致性。

MySQL查询性能不佳的原因主要包括没有使用索引、查询优化器选择错误的执行计划、表设计不合理、数据量过大和锁竞争。1.没有索引导致查询缓慢,添加索引后可显著提升性能。2.使用EXPLAIN命令可以分析查询计划,找出优化器错误。3.重构表结构和优化JOIN条件可改善表设计问题。4.数据量大时,采用分区和分表策略。5.高并发环境下,优化事务和锁策略可减少锁竞争。

在數據庫優化中,應根據查詢需求選擇索引策略:1.當查詢涉及多個列且條件順序固定時,使用複合索引;2.當查詢涉及多個列但條件順序不固定時,使用多個單列索引。複合索引適用於優化多列查詢,單列索引則適合單列查詢。

要優化MySQL慢查詢,需使用slowquerylog和performance_schema:1.啟用slowquerylog並設置閾值,記錄慢查詢;2.利用performance_schema分析查詢執行細節,找出性能瓶頸並優化。

MySQL和SQL是開發者必備技能。 1.MySQL是開源的關係型數據庫管理系統,SQL是用於管理和操作數據庫的標準語言。 2.MySQL通過高效的數據存儲和檢索功能支持多種存儲引擎,SQL通過簡單語句完成複雜數據操作。 3.使用示例包括基本查詢和高級查詢,如按條件過濾和排序。 4.常見錯誤包括語法錯誤和性能問題,可通過檢查SQL語句和使用EXPLAIN命令優化。 5.性能優化技巧包括使用索引、避免全表掃描、優化JOIN操作和提升代碼可讀性。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

記事本++7.3.1
好用且免費的程式碼編輯器

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器