小編給大家分享一下python爬蟲采集知乎后怎么輸出內容,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
數據包括回答的問題標題,回答的url,回答的內容文本,獲贊數,發布時間及數據采集時間。
爬蟲的功能分為以下4個部分:
采用 selenium 啟動無頭瀏覽器
爬取用戶回答列表頁的標題與url
爬取每個回答的內容、發布時間與獲贊數
把爬取到的數據用表格文件保存
代碼如下:
"""采用 python selenium 無頭瀏覽器,爬取單個用戶的所有回答數據并保存為表格文件。""" from time import sleep from datetime import datetime from selenium import webdriver from selenium.webdriver.chrome.options import Options import pandas as pd def start_driver(): chrome_options = Options() chrome_options.add_argument("--headless") chrome_options.add_argument("--disable-gpu") driver = webdriver.Chrome(options=chrome_options) return driver def get_answers_url(driver,url): driver.get(url) sleep(2) rlts = driver.find_elements_by_xpath('//*[@id="Profile-answers"]/div[2]//div/div/h3/div/a') answers = [[rlt.text,rlt.get_attribute("href")] for rlt in rlts] return answers def get_answers_text(driver,url): driver.get(url) sleep(2) rlt = driver.find_element_by_class_name('RichContent-inner') content = rlt.text rlt = driver.find_element_by_class_name("ContentItem-time") date = rlt.find_element_by_xpath(".//a/span").get_attribute("data-tooltip") rlt = driver.find_element_by_class_name("ContentItem-actions") upvote = rlt.find_element_by_xpath(".//span/button").get_attribute("aria-label") return [content,date,upvote] driver = start_driver() url = "https://www.zhihu.com/people/haili-9-70/answers" answers = get_answers_url(driver,url) answers_dict = {} for i in range(len(answers)): answers_dict[i] = {} answers_dict[i]["title"] = answers[i][0] answers_dict[i]["url"] = answers[i][1] answers_dict[i]["content"] = get_answers_text(driver,answers[i][1])[0] answers_dict[i]["date"] = get_answers_text(driver,answers[i][1])[1] answers_dict[i]["upvote"] = get_answers_text(driver,answers[i][1])[2] answers_dict[i]["timestamp"] = str(datetime.now())[:-7] df = pd.DataFrame(answers_dict).T file = "./zhihu_answers_" + str(datetime.now().date()) + ".csv" df.to_csv(file)
這個腳本適合備份自己的回答數據。
效果展示:
以上是python爬蟲采集知乎后怎么輸出內容的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。