可以使用lxml庫中的html.fromstring()方法來解析HTML文檔。首先需要將HTML文檔讀取為字符串,然后使用html.fromstring()方法將其轉換為Element對象,最后可以使用Element對象的方法來獲取需要的信息。以下是一個示例代碼:
from lxml import html
# 讀取HTML文檔
with open('example.html', 'r') as file:
html_content = file.read()
# 解析HTML文檔
tree = html.fromstring(html_content)
# 獲取標題
title = tree.findtext('.//title')
# 獲取所有的鏈接
links = tree.xpath('.//a/@href')
# 打印結果
print(title)
print(links)
在上面的代碼中,我們首先讀取了名為example.html的HTML文檔,然后使用html.fromstring()方法將其轉換為Element對象tree。接著使用Element對象的findtext()方法獲取標題,并使用xpath()方法獲取所有的鏈接。最后打印標題和鏈接的結果。