溫馨提示×

lxml怎么解析HTML文檔

html lxml

小億

206

2024-05-14 13:21:13

欄目: 編程語言

可以使用lxml庫中的html.fromstring()方法來解析HTML文檔。首先需要將HTML文檔讀取為字符串，然后使用html.fromstring()方法將其轉換為Element對象，最后可以使用Element對象的方法來獲取需要的信息。以下是一個示例代碼：

from lxml import html

# 讀取HTML文檔
with open('example.html', 'r') as file:
    html_content = file.read()

# 解析HTML文檔
tree = html.fromstring(html_content)

# 獲取標題
title = tree.findtext('.//title')

# 獲取所有的鏈接
links = tree.xpath('.//a/@href')

# 打印結果
print(title)
print(links)

在上面的代碼中，我們首先讀取了名為example.html的HTML文檔，然后使用html.fromstring()方法將其轉換為Element對象tree。接著使用Element對象的findtext()方法獲取標題，并使用xpath()方法獲取所有的鏈接。最后打印標題和鏈接的結果。

0 贊

0 踩

最新問答

相關問答

相關標簽

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女