溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Nutch1.9如何安裝

發布時間:2021-11-12 14:04:21 來源:億速云 閱讀:156 作者:小新 欄目:云計算

小編給大家分享一下Nutch1.9如何安裝,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

一、  Nutch安裝并整合到Solr

1、下載并解壓Nutch(此處使用版本1.9)      http://nutch.apache.org/

2、修改apache-nutch-1.9/conf/nutch-site.xml

<property>

<name>http.agent.name</name>

<value>My Nutch Spider</value>

</property>

3、添加需要爬取的urls種子,創建apache-nutch-1.9/urls/seed.txt:

此處添加一條url(如:http://www.oschina.net/)

4、Nutch與Solr整合需要替換Solr Home中的Schema.xml

首先做好備份:

mv  solr_home/solr/collection1/conf/schema.xml solr_home/solr/collection1/conf/schema.xml.org

                     將nutch中的schema-solr4.xml copy到solr_home中,如下:

cp  apache-nutch-1.9/conf/schema-solr4.xml solr_home/solr/collection1/conf/schema.xml

5、修改solr_home/solr/collection1/conf/schema.xml,

在 <field name="id"下面加上

<field name="_version_" type="long" indexed="true" stored="true"/>

                            由于覆蓋了之前配置好的IK分詞器。所以需要重新配置:

在<types>中增加如下內容:

            <fieldType name="text_ik" class="solr.TextField">

<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

                   </fieldType>

將需要用到IK分詞的字段的type值修改以上定義的name

                               <field name="content" type="text_ik" stored="true" indexed="true"/>

<field name="title" type="text_ik" stored="true" indexed="true"/>

<field name="text" type="text_ik" stored="false" indexed="true" multiValued="true"/>

<field name="anchor" type="text_ik" stored="true" indexed="true"/>

到此處配置完成。

測試爬?。?/p>

bin/crawl urls/ crawldb/ http://localhost:8080/solr/ 1

當完成后,打開solr的管理界面,點擊query將會看到nutch爬取的數據

以上是“Nutch1.9如何安裝”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女