溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何用python爬取租房網站信息

發布時間:2021-04-25 10:52:41 來源:億速云 閱讀:210 作者:小新 欄目:開發技術

這篇文章主要介紹如何用python爬取租房網站信息,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

Python的優點有哪些

1、簡單易用,與C/C++、Java、C# 等傳統語言相比,Python對代碼格式的要求沒有那么嚴格;2、Python屬于開源的,所有人都可以看到源代碼,并且可以被移植在許多平臺上使用;3、Python面向對象,能夠支持面向過程編程,也支持面向對象編程;4、Python是一種解釋性語言,Python寫的程序不需要編譯成二進制代碼,可以直接從源代碼運行程序;5、Python功能強大,擁有的模塊眾多,基本能夠實現所有的常見功能。

爬取租房信息的代碼:

鏈家的房租網站
兩個導入的包
1.requests 用來過去網頁內容 
2.BeautifulSoup
import time
import pymssql
import requests
from bs4 import BeautifulSoup
#  https://wh.lianjia.com/zufang/
#獲取url中下面的內容
def get_page(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  return soup
#封裝成函數,作用是獲取列表下的所有租房頁面的鏈接,返回一個鏈接列表
def get_links(url):
  responce = requests.get(url)
  soup = BeautifulSoup(responce.text,'lxml')
  link_div = soup.find_all('div',class_ = 'pic-panel')
  links = [div.a.get('href') for div in link_div]
  return links
#收集一個房子的信息
def get_house_info(house_url):
  soup = get_page(house_url)
  price = soup.find('span',class_='total').text
  unit = soup.find('span',class_= 'unit').text[1:-1]
  area = soup.find('p', class_ = 'lf').text
  house_info= soup.find_all('p',class_ = 'lf')
  area = house_info[0].text[3:] #字符串切片工具
  layout = house_info[1].text[5:]
  info={
    '價格':price,
    '單位':unit,
    '面積':area,
    '戶型':layout
    }
  return info
#鏈接數據庫
server="192.168.xx.xx"  #換成自己的服務器信息
user="liujiepeng"
password="xxxxx"    #自己的數據庫用戶名和密碼
conn=pymssql.connect(server,user,password,database="house")
def insert(conn,house):
  #sql_values = values.format(house['價格'],house['單位'],house['面積'],
                #house['戶型'])
  sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["價格"],house["單位"],house["面積"],house["戶型"])
  print(sql)
  cursor = conn.cursor() #游標,開拓新的窗口
  #cursor1 = conn.cursor()
  cursor.execute(sql) #執行sql語句
  conn.commit() #提交 ,更新sql 語句
links = get_links('https://wh.lianjia.com/zufang/')
count = 1
for link in links:
  #time.sleep(2)
  print('獲取一個數據成功')
  house = get_house_info(link)
  insert(conn,house)
  print("第%s個數據,存入數據庫成功!"%(count))
  count = count+1
  #print(house["價格"],end='\r')

以上是“如何用python爬取租房網站信息”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女