溫馨提示×

lxml怎么解析HTML文檔

小億
206
2024-05-14 13:21:13
欄目: 編程語言

可以使用lxml庫中的html.fromstring()方法來解析HTML文檔。首先需要將HTML文檔讀取為字符串,然后使用html.fromstring()方法將其轉換為Element對象,最后可以使用Element對象的方法來獲取需要的信息。以下是一個示例代碼:

from lxml import html

# 讀取HTML文檔
with open('example.html', 'r') as file:
    html_content = file.read()

# 解析HTML文檔
tree = html.fromstring(html_content)

# 獲取標題
title = tree.findtext('.//title')

# 獲取所有的鏈接
links = tree.xpath('.//a/@href')

# 打印結果
print(title)
print(links)

在上面的代碼中,我們首先讀取了名為example.html的HTML文檔,然后使用html.fromstring()方法將其轉換為Element對象tree。接著使用Element對象的findtext()方法獲取標題,并使用xpath()方法獲取所有的鏈接。最后打印標題和鏈接的結果。

0
亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女