本篇內容介紹了“用python爬蟲爬取表情包”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
import requests import os from bs4 import BeautifulSoup
還需要有一個 lxml庫 但不需要導入 BeautifulSoup 在 beautifulsoup4 的包下
if not os.path.isdir("./img/"): #如果當前目錄下沒有img文件夾
os.mkdir("./img/") #創建img文件夾headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0'
}那么為什么要創建請求頭呢,因為在網站訪問的過程中,有大部分網站會對當前請求做驗證,來判斷當前的請求是否合法(不是使用瀏覽器來獲取網站數據的話會被認為非法請求)。如果不添加請求頭的話,可能會出現當前網站沒有訪問權限。
提示:請求頭的內容可用Burpsuite來抓取 
def pa(num):
url = 'https://fabiaoqing.com/biaoqing/lists/page/'+str(num)+'.html' #構造url
rp = requests.get(url,headers).text #請求url 用文本返回
soup = BeautifulSoup(rp,'lxml') #構建soup
img_list = soup.find_all('img',class_='ui image lazy') #篩選所有img標簽 條件為class=xxx
for img in img_list:
img_url = img['data-original'] #獲取這個屬性的內容
img_title = img['title']
print(img_url,img_title)
try:
with open('img/'+img_title + os.path.splitext(img_url)[-1],'wb') as f: #圖片文件
image = requests.get(img_url).content #請求img_url 以二進制返回
f.write(image)
except:
passfor i in range(1,201): #網站有多少頁就設置多少 pa(i) # 將每一頁的圖片都抓下來

import requests #請求模塊
import os
from bs4 import BeautifulSoup #抓取網站內容
if not os.path.isdir("./img/"):
os.mkdir("./img/")
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0'}
#創造頭
def pa(num):
url = 'https://fabiaoqing.com/biaoqing/lists/page/'+str(num)+'.html' #構造url
rp = requests.get(url,headers).text #請求url 用文本返回
soup = BeautifulSoup(rp,'lxml') #構建soup
img_list = soup.find_all('img',class_='ui image lazy') #篩選所有img標簽 條件為class=xxx
for img in img_list:
img_url = img['data-original'] #獲取這個屬性的內容
img_title = img['title']
print(img_url,img_title)
try:
with open('img/'+img_title + os.path.splitext(img_url)[-1],'wb') as f:
image = requests.get(img_url).content #請求img_url 以二進制返回
f.write(image)
except:
pass
for i in range(1,201):
pa(i)“用python爬蟲爬取表情包”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。