日期:2013/10/13 系统 :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 ------------------------------------------------------------------------------------------------------------------------------------------------------------
日期:2013/10/13
系统:Ubuntu12.04LTS
JDK:1.7.0_21
Nutch:2.2.1
MySQL:5.5.32
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pre1:安装配置OracleJDK
Pre2:安装配置MySQL sudo apt-get install mysql-server,mysql-client
Pre3:安装配置Apache Ant sudo apt-get install ant
Start:Ubuntu下搭建Nutch2.2.1,并以MySQL作为数据库,UTF-8为默认编码综合配置
Step1:MySQL配置
首先编辑 /etc/mysql/my.cnf 文件在[mysqld]下面添加以下内容:
innodb_file_format=barracuda innodb_file_per_table=true innodb_large_prefix=true character-set-server=utf8 collation-server=utf8mb4_unicode_ci max_allowed_packet=500M
然后创建数据库与数据表:
CREATE DATABASE nutch DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8;
CREATE TABLE `webpage` ( `id` varchar(767) NOT NULL, `headers` blob, `text` mediumtext DEFAULT NULL, `status` int(11) DEFAULT NULL, `markers` blob, `parseStatus` blob, `modifiedTime` bigint(20) DEFAULT NULL, `score` float DEFAULT NULL, `typ` varchar(32) CHARACTER SET latin1 DEFAULT NULL, `batchId` varchar(32) CHARACTER SET latin1 DEFAULT NULL, `baseUrl` varchar(767) DEFAULT NULL, `content` longblob, `title` varchar(2048) DEFAULT NULL, `reprUrl` varchar(767) DEFAULT NULL, `fetchInterval` int(11) DEFAULT NULL, `prevFetchTime` bigint(20) DEFAULT NULL, `inlinks` mediumblob, `prevSignature` blob, `outlinks` mediumblob, `fetchTime` bigint(20) DEFAULT NULL, `retriesSinceFetch` int(11) DEFAULT NULL, `protocolStatus` blob, `signature` blob, `metadata` blob, PRIMARY KEY (`id`) ) ENGINE=InnoDB ROW_FORMAT=COMPRESSED DEFAULT CHARSET=utf8;注:表中的字段根据nutch的conf文件“gora-sql-mapping”进行设置。同时也可通过自动方式生成数据库和表:配置好“gora-sql-mapping”、“gora.properties”及其它文件后,首次通过运行”bin/nutchinject urls”即可自动生成数据库和表,不过或许在自动生成的时候你会遇到问题,不过没有关系,通过及时查看hadoop.log文件你便会发现很多问题(如下图之一)与MySQL支持的数据类型、数据长度有关,只需要根据日志提示做修改、调试(可借助navicat工具像SQLServer方便操作数据库),然后再重复自动生成过程,直到成功为止。
Step2:Nutch配置
获取Nutch2.2.1,从官网http://www.apache.org/dyn/closer.cgi/nutch/下载,然后解压至本地安装目录,如本地根目录为${APACHE_NUTCH_HOME}
将以下行的注释取消:
<dependency org="”mysql”" name="”mysql-connector-java”" rev="”5.1.18″" conf="”*-">default”/></dependency>
<span><dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default"></dependency></span>
修改以下行:
<pre class="brush:php;toolbar:false"><span><dependency org="org.apache.gora" name="gora-core" rev="0.3" conf="*->default"></dependency></span>为:
<span><dependencyorg name="gora-core"><span>rev="0.2.1"</span>conf="*->default"/></dependencyorg></span>
Step3:数据库连接配置
编辑${APACHE_NUTCH_HOME}/conf/gora.properties文件,注释掉默认的数据库连接配置,同时添加以下配置内容:
############################### # MySQL configure # ############################### gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true gora.sqlstore.jdbc.user=xxxx(MySQL用户名) gora.sqlstore.jdbc.password=xxxx(MySQL密码)
Step4:数据表映射配置
修改${APACHE_NUTCH_HOME}/conf/gora.properties文件,这里的修改建议按照前面介绍的自动生成数据表的方法进行修改,网上说的要将primarykey的长度从512修改成767,即:
改:
Step5:nutch-site.xml配置
添加以下配置:
<property> <name>http.agent.name</name> <value>Your Nutch Spider</value> </property> <property> <name>http.accept.language</name> <value>zh-cn, en-us,en-gb,en;q=0.7,*;q=0.3</value> <description>*</description> </property> <property> <name>parser.character.encoding.default</name> <value>utf-8</value> <description>*</description> </property> <property> <name>storage.data.store.class</name> <value>org.apache.gora.sql.store.SqlStore</value> <description>*</description> </property>特别需要注意,本人在配置过程中也遇到了:
java.lang.NullPointerException at org.apache.avro.util.Utf8.<init>(Utf8.java:37) at org.apache.nutch.crawl.GeneratorReducer.setup(GeneratorReducer.java:100) at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:174) at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:649) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:398) </init>解决办法就是在上述文件中另外添加一个属性:
<property> <name>generate.batch.id</name> <value>*</value> </property>Step6:使用ant 构建Nutch
(关于ant的命令,这里就不说明了),只需要切换到${APACHE_NUTCH_HOME}下执行ant clean 然后ant 即可。构建完毕后会在${APACHE_NUTCH_HOME}目录下生成runtime 文件夹。
Step:7 网页抓取,种子配置
创建种子文件
cd${APACHE_NUTCH_HOME}/runtime/local mkdir -p urls echo 'http://www.sina.com.cn' > urls/seed.txt echo 'http://www.ifeng.com' > urls/seed.txt
bin/nutchcrawl urls -depth 5 -topN 10
至此,已经完成了基本的配置。

酷睿i73770配什么显卡好啊RTX3070是一款非常强大的显卡,它具有出色的性能和先进的技术。无论是玩游戏、渲染图形还是进行机器学习,RTX3070都能轻松应对。它采用了NVIDIA的Ampere架构,拥有5888个CUDA核心和8GB的GDDR6内存,能够提供流畅的游戏体验和高品质的图形效果。RTX3070还支持光线追踪技术,能够呈现逼真的光影效果。总之,RTX3070是一款强大而先进的显卡,适合那些追求高性能和高品质的用户使用。RTX3070是一款NVIDIA系列的显卡。采用第2代NVID

i73770配rx5600xt因为RX5600XT显卡与R53600CPU配套,所以我们选择了i7-3770。RX5600XT显卡的评测结果如下:RX5600XT显卡是一款性能出色的显卡,经过测试表现非常出色。它采用了AMD的RDNA架构,拥有6GBGDDR6显存和192-bit内存接口,支持PCIe4.0总线,具备卓越的游戏性能。在各项测试中,RX5600XT显卡都表现出色。在高分辨率下,它能够提供流畅的游戏体验,并且在大多数游戏中都能够保持60帧以上的帧率。在最新的游戏中,它也能够提供很好的

13600kf配3070合理吗《文字玩出花》是一款备受欢迎的文字解谜游戏,每天都会更新新的关卡。其中,怀旧大扫除是其中一个关卡,要求玩家在图中找到12个与年代不符的地方。今天,我将为大家分享《文字玩出花》怀旧大扫除关卡的通关攻略,让还未通关的玩家们了解具体的操作方法。如果是用来玩游戏,那么I513600KF和I713700KF是对游戏体验没什么区别,这时候CPU选择I513600KF就可以。显卡就可以选择RTX3070啦。需要注意的是,不同的游戏对硬件要求也会不同,如果小可爱仅仅是玩DOTALO

1.MX330机箱概述MX330是由深圳航嘉科技有限公司生产的中塔式机箱,外观简约大方,采用优质钢板材质。它具备出色的散热性能和可扩展性,非常适合与高性能的主板和处理器搭配使用2.酷睿10代i5处理器介绍酷睿10代i5处理器是英特尔公司推出的一款高性能处理器,采用了10纳米工艺制程,拥有更高的频率和更低的功耗。它具备强大的多核处理能力和智能加速技术,能够满足大多数用户的日常使用需求和轻度游戏需求。3.MX330机箱的散热性能MX330机箱的设计采用了全黑格风格,前置和顶部都配备了大面积的网孔,可

小米配什么主板电脑好些在当今信息技术迅速发展的时代,电脑已经成为人们生活中必不可少的工具之一。而在选择电脑时,主板是其中最重要的组件之一。小米作为一家著名的科技公司,也推出了一系列高性能的电脑产品。那么,小米应该选择什么样的主板电脑呢?本文将从性能、稳定性、扩展性和品牌声誉等多个方面进行详细阐述性能性能是选择主板时最重要的考虑因素之一。小米的高端电脑配置最高,因此需要选择一款性能强劲的主板来匹配。我们可以考虑选择一款支持最新一代处理器的主板,比如Intel的第十代酷睿处理器。主板的内存和存储扩展

在选择最低配置的中央处理器(CPU)时,平衡经济实惠和基本需求非常重要。对于使用1150主板的用户来说,选择一款适合的最低配置的CPU能够满足日常办公、网页浏览和轻度娱乐的需求。本文将从性能、价格、功耗和扩展性等方面为您推荐几款适合的CPU性能最低配CPU的选择中,性能是一个重要的考虑因素。对于一般办公和轻度娱乐用户来说,四核心处理器已经足够满足需求。Intel的i3系列和PentiumG系列都是不错的选择。i3系列具有更高的性能和更大的缓存,适合处理多任务和多线程应用。而PentiumG系列则

i56500配GTX1070合适吗如果要较真的话,答案是不能。但是结合实际情况来看,这样的搭配没有什么问题。为什么说不能呢?因为对于现在那些比较吃配置的大型单机游戏来说,如果你用i76700k和i56500带gtx1070,其他配置和设置都一样的话,帧数通常会有所不同,6700k的帧数往往会更高一些。其实这更像是木桶原理,不是说你买得起还是买不起的问题,关键在于游戏对cpu的需求有多高但考虑到i56500与gtx1070在大多数游戏中的兼容性,帧率已经相当可观,能够提供出色的游戏体验,因此这样的

笔记本配什么鼠标回最好是配上无线鼠标。1.无线鼠标不会有线缠绕在一起的问题,操作更加便利。2.配备无线鼠标可以避免线缆杂乱的场面,并且在移动时更加自由。3.无线鼠标和笔记本之间不需要使用线缆来连接,也不会出现线缆容易拔出的情况,使用体验更佳。4.在商务旅行等情况下,无线鼠标更加方便携带。鼠标配合笔记本使用,应该选择无线鼠标。因为无线鼠标不需要连接线,使用起来更加方便,而且可以避免连接线的纠缠。同时,无线鼠标的灵敏度和反应速度也比有线鼠标更好,可以提高工作效率。如果需要长时间使用,建议选择带有充电


Hot AI Tools

Undresser.AI Undress
AI-powered app for creating realistic nude photos

AI Clothes Remover
Online AI tool for removing clothes from photos.

Undress AI Tool
Undress images for free

Clothoff.io
AI clothes remover

AI Hentai Generator
Generate AI Hentai for free.

Hot Article

Hot Tools

EditPlus Chinese cracked version
Small size, syntax highlighting, does not support code prompt function

Dreamweaver CS6
Visual web development tools

WebStorm Mac version
Useful JavaScript development tools

SublimeText3 Mac version
God-level code editing software (SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) is a PHP/MySQL web application that is very vulnerable. Its main goals are to be an aid for security professionals to test their skills and tools in a legal environment, to help web developers better understand the process of securing web applications, and to help teachers/students teach/learn in a classroom environment Web application security. The goal of DVWA is to practice some of the most common web vulnerabilities through a simple and straightforward interface, with varying degrees of difficulty. Please note that this software
