一、简介
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。
二、安装
三、使用
1、导入
2、基本使用
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
from lxml import etree wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> """ html = etree.HTML(wb_data) print (html) result = etree.tostring(html) print (result.decode( "utf-8" )) |
从下面的结果来看,我们打印机html其实就是一个python对象,etree.tostring(html)则是不全里html的基本写法,补全了缺胳膊少腿的标签。
1 2 3 4 5 6 7 8 9 10 11 |
<Element html at 0x39e58f0 > <html><body><div> <ul> <li class = "item-0" ><a href = <
|