java中怎么利用Jsoup爬取網頁,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。
一,導入依賴
<!--java爬蟲--> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.3</version> </dependency> <!--httpclient依賴--> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> </dependency>
二,編寫demo類
注意不要導錯包了,是org.jsoup.nodes下面的
package com.taotao.entity; import org.apache.http.HttpEntity; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; public class intefaceTest { public static void main(String[] args) throws IOException { CloseableHttpClient httpClient = HttpClients.createDefault();//創建httpClient HttpGet httpGet = new HttpGet("http://www.cnblogs.com/");//創建httpget實例 CloseableHttpResponse response = httpClient.execute(httpGet);//執行get請求 HttpEntity entity = response.getEntity();//獲取返回實體 String content = EntityUtils.toString(entity,"utf-8");//網頁內容 response.close();//關閉流和釋放系統資源 Jsoup.parse(content); Document doc = Jsoup.parse(content);//解析網頁得到文檔對象 Elements elements = doc.getElementsByTag("title");//獲取tag是title的所有dom文檔 Element element = elements.get(0);//獲取第一個元素 String title = element.text(); //.html是返回html System.out.println("網頁標題:"+title); Element element1 = doc.getElementById("site_nav_top");//獲取id=site_nav_top標簽 String str = element1.text(); System.out.println("str:"+str); } }
看完上述內容,你們掌握java中怎么利用Jsoup爬取網頁的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。