溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

python爬蟲采集知乎后怎么輸出內容

發布時間：2020-11-23 09:59:23 來源：億速云閱讀：273 作者：小新欄目：編程語言

小編給大家分享一下python爬蟲采集知乎后怎么輸出內容，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

數據包括回答的問題標題，回答的url，回答的內容文本，獲贊數，發布時間及數據采集時間。

爬蟲的功能分為以下4個部分：

采用 selenium 啟動無頭瀏覽器
爬取用戶回答列表頁的標題與url
爬取每個回答的內容、發布時間與獲贊數
把爬取到的數據用表格文件保存

代碼如下：

"""采用 python selenium 無頭瀏覽器，爬取單個用戶的所有回答數據并保存為表格文件。"""
 
from time import sleep
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import pandas as pd
 
def start_driver():
    chrome_options = Options()
    chrome_options.add_argument("--headless")
    chrome_options.add_argument("--disable-gpu")
    driver = webdriver.Chrome(options=chrome_options)
    return driver
 
def get_answers_url(driver,url):
    driver.get(url)
    sleep(2)
    rlts = driver.find_elements_by_xpath('//*[@id="Profile-answers"]/div[2]//div/div/h3/div/a')   
    answers = [[rlt.text,rlt.get_attribute("href")] for rlt in rlts]
    return answers
 
def get_answers_text(driver,url):
    driver.get(url)
    sleep(2)
    rlt = driver.find_element_by_class_name('RichContent-inner')
    content = rlt.text
    rlt = driver.find_element_by_class_name("ContentItem-time")
    date = rlt.find_element_by_xpath(".//a/span").get_attribute("data-tooltip")
    rlt = driver.find_element_by_class_name("ContentItem-actions")
    upvote = rlt.find_element_by_xpath(".//span/button").get_attribute("aria-label")
    return [content,date,upvote]
 
driver = start_driver()
url = "https://www.zhihu.com/people/haili-9-70/answers"
answers = get_answers_url(driver,url)
answers_dict = {}
for i in range(len(answers)):
    answers_dict[i] = {}
    answers_dict[i]["title"] = answers[i][0]
    answers_dict[i]["url"] = answers[i][1]
    answers_dict[i]["content"] = get_answers_text(driver,answers[i][1])[0]
    answers_dict[i]["date"] = get_answers_text(driver,answers[i][1])[1]
    answers_dict[i]["upvote"] = get_answers_text(driver,answers[i][1])[2]
    answers_dict[i]["timestamp"] = str(datetime.now())[:-7]
 
df = pd.DataFrame(answers_dict).T
file = "./zhihu_answers_" + str(datetime.now().date()) + ".csv"
df.to_csv(file)

這個腳本適合備份自己的回答數據。

效果展示：

python爬蟲采集知乎后怎么輸出內容

以上是python爬蟲采集知乎后怎么輸出內容的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
怎么用scrapy框架構建python爬蟲
下一篇新聞：
用python爬蟲在知乎上提取圖片的示例

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女