溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python爬蟲入門知識點有哪些

發布時間：2021-12-27 10:03:33 來源：億速云閱讀：133 作者：iii 欄目：大數據

這篇文章主要講解了“Python爬蟲入門知識點有哪些”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“Python爬蟲入門知識點有哪些”吧！

1、什么是爬蟲

“爬蟲”是一種形象的說法?；ヂ摼W比喻成一張大網，爬蟲是一個程序或腳本在這種大網上爬走。碰到蟲子（資源），若是所需的資源就獲取或下載下來。這個資源通常是網頁、文件等等?？梢酝ㄟ^該資源里面的url鏈接，順藤摸瓜繼續爬取這些鏈接的資源。

你也可以把爬蟲當作模擬我們正常上網。打開網頁并分析網頁的內容獲取我們想要的東西。

那么，這里就涉及到http傳輸協議等相關的知識。

我們通常打開一個網頁，基本上都是打開一個Url鏈接即可。在這個過程當中，實際上發生了很多事情。

打開一個Url鏈接，瀏覽器自動向Url鏈接的服務器發送一個請求(Request)，告訴服務器說我需要訪問這個Url鏈接的內容，請返回數據給我。服務器就處理該請求，響應該請求并返回結果給瀏覽器。

既然爬蟲需要模擬該過程。根據http協議，爬蟲需要構造一個請求(Request)，發到請求到目標服務器(通常是Url鏈接)。然后等待服務器的響應(Response)。

所有相關的數據都在這個響應結果當中，這個就是爬蟲實現的基本邏輯。

2、urllib2實現GET請求

GET和POST是請求中最常見的兩種方式。(一共有6種)

GET方式是通過Url鏈接的方式傳輸相關的參數或數據。一般打開網址是GET方式請求，例如打開百度首頁、谷歌首頁。

有時候，需要向這個鏈接傳輸一些參數。

例如我在百度搜索一個詞，發現鏈接變成 https://www.baidu.com/s?ie=UTF-8&wd=測試

這里有個?問號以及后面一堆數據。問號后面的數據是GET請求的參數，這里一共有兩組參數。

1）ie = UTF-8

2）wd = 測試

每組參數用&符號鏈接。在參數中，等號前面的是參數名；等號后面的是參數值。

例如第2組參數的含義是百度搜索關鍵字為“測試”。第1組參數是設置返回ie瀏覽器的編碼格式，可有可無，作為說明加入進來。

那么，我使用urllib2模擬百度搜索代碼如下：

  
  
  #coding:utf-8import urllib, urllib2 #前半部分的鏈接(注意是http，不是https)url_pre = 'http://www.baidu.com/s' #GET參數params = {}params['wd'] = u'測試'.encode('utf-8')url_params = urllib.urlencode(params) #GET請求完整鏈接url = '%s?%s' % (url_pre, url_params) #打開鏈接，獲取響應response = urllib2.urlopen(url) #獲取響應的htmlhtml = response.read() #將html保存到文件with open('test.txt', 'w') as f:    f.write(html)

執行代碼，可以看到爬取的內容。

5、反爬蟲設置header

有些服務器為了避免被爬蟲，會檢查header。header是發送請求的時候，一起發送給服務器的數據?？梢酝ㄟ^header得到瀏覽器的類型，手機端還是電腦端訪問，以及從什么地方進入該鏈接等等。

若發現不是正常瀏覽器訪問，服務器則直接拒絕。

so~ 我們需要進一步模擬瀏覽器的行為，需要模擬設置header。

  
  
  #coding:utf-8import urllib, urllib2   #設置headeruser_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  headers = {'User-Agent':user_agent}  #構造Request請求，其中第二個參數是dataurl = 'http://www.server.com/login'request = urllib2.Request(url, None, headers) #響應請求response = urllib2.urlopen(request)  html = response.read()

同樣，若你不知道如何設置header，可以通過抓包軟件獲取，例如Fiddler。

6、解析html

前面說了這么多，都是為了獲取網頁內容html。既然獲取到html之后，我們解析？從中提取我們需要的數據？

我們所獲取的html本質是字符串。處理字符串最基本的方法是通過相關的字符串函數，但效率很低，容易出錯。

還可以使用正則表達式處理字符串。這部分的知識也是很多，大家可以自行了解。

這里，我想給大家說的處理方式是使用BeautifulSoup。

BeautifulSoup是解析html/xml的庫。非Python自帶的庫，安裝如下：

  
  
  pip install beautifulsoup4pip install lxml

安裝lxml庫是為了加快html解析效率。

先我們設置1個html內容，使用BeautifulSoup解析方法如下：

  
  
  #coding:utf-8from bs4 import BeautifulSoup #先隨便假設一個htmlhtml = '''<html><head></head><body>    <p id="test_p">test1</p>    <p>test2</p></body><html>''' #使用lxml解析htmlsoup = BeautifulSoup(html, 'lxml')

soup是解析得到的解析器。我們可以根據html的結構獲取對應的節點。例如我想獲取p標簽：

  
  
  p = soup.body.p

但該方法只能獲取到第1個節點。假如body標簽下有很多p節點，該方法無法獲取全部。

這里，我們可以用find_all或select方法獲取。建議大家使用select方法，這個方法可以jQuery選擇器用法差不多。例如：

  
  
  p1 = soup.select('p') #獲取p標簽p2 = soup.select('#test_p') #獲取id為test_p的標簽p3 = soup.select('.test')   #獲取class為test的標簽p4 = soup.select('body .test') #獲取body下的class為test的標簽

來個完整的代碼，輸出結果：

  
  
  #coding:utf-8from bs4 import BeautifulSoup #先隨便假設一個htmlhtml = '''<html><head></head><body>    <p id="test_p">test1</p>    <p>test2</p></body><html>''' #使用lxml解析htmlsoup = BeautifulSoup(html, 'lxml') #獲取全部p標簽for p in soup.select('p'):    print(p)

通過該方法，可以輸出全部p標簽。

那假如我要獲取p標簽的屬性和數據呢？方法如下：

  
  
  for p in soup.select('p'):    print(p.name) #標簽名稱        #標簽屬性，也可以用p['id']。若屬性不存在會報錯，和字典獲取鍵值類似    print(p.get('id'))     print(p.string) #標簽內容

若一個標簽里面有很多子標簽，你可以再進一步繼續使用select。

若想獲取標簽下全部子標簽的文本內容?？梢杂胹trings屬性得到一個生成器，不過可能有很多回車和空格。若想屏蔽回車和空格，可以使用stripped_strings屬性。如下所示：

  
  
  print(''.join(soup.body.strings))print(''.join(soup.body.stripped_strings))

將分別得到：

  
  
  u'\ntest1\ntest2\n'u'test1test2'

感謝各位的閱讀，以上就是“Python爬蟲入門知識點有哪些”的內容了，經過本文的學習后，相信大家對Python爬蟲入門知識點有哪些這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關知識點的文章，歡迎關注！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
Visual Studio 2010 Ultimate測試體系結構是怎么樣的
下一篇新聞：
Python查詢快遞的方法是什么

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女