关于 lxml.HTML 下的一个问题

2019-04-25 16:43:03 +08:00
 xiaxichen

关于 lxml.HTML 相关的问题

<dl class="dl-horizontal ip_list">&#13;\n
<dt>&#22806;&#35266;&#19982;&#24615;&#29366;&#65306;</dt>
<dd><b>&#36879;&#26126;&#26080;&#33394;&#33267;&#38750;&#24120;&#30053;&#40644;&#33394;&#28082;&#20307;</b></dd>&#13;\n
<dt>&#23494;&#24230;&#65306;</dt>
<dd><b>1.027&#160;g/mL&#160;at 25&#160;&#176;C(lit.)</b></dd>&#13;\n
<dt>&#29076;&#28857;&#65306;</dt>
<dd><b>187&#176;C</b></dd>&#13;\n
<dt>&#27832;&#28857;&#65306;</dt>
<dd><b>187&#160;&#176;C(lit.)</b></dd>&#13;\n
<dt>&#38378;&#28857;&#65306;</dt>
<dd><b>200&#160;&#176;F</b></dd>&#13;\n
<dt>&#25240;&#23556;&#29575;&#65306;</dt>
<dd><b>n20/D 1.458(lit.)</b></dd>&#13;\n
<dt>&#33976;&#27773;&#21387;&#65306;</dt>
<dd><b>0.216mmHg at 25&#176;C</b></dd>&#13;\n
<dt>&#33976;&#27773;&#23494;&#24230;&#65306;</dt>
<dd><b>4.02 (vs air)</b></dd>&#13;\n
<dt>&#23384;&#20648;&#26465;&#20214;/&#23384;&#20648;&#26041;&#27861;&#65306;</dt>
<dd><b/>
<p>&#13;\n\t\t\t\t \t</p>
<div>&#20648;&#23384;&#20110;&#38452;&#20937;&#12289;&#36890;&#39118;&#30340;&#24211;&#25151;&#12290;&#36828;&#31163;&#28779;&#31181;&#12289;&#28909;&#28304;&#12290;&#20445;&#25345;&#23481;&#22120;&#23494;&#23553;&#12290;&#24212;&#19982;&#27687;&#21270;&#21058;&#20998;&#24320;&#23384;&#25918;&#65292;&#20999;&#24524;&#28151;&#20648;&#12290;&#37197;&#22791;&#30456;&#24212;&#21697;&#31181;&#21644;&#25968;&#37327;&#30340;&#28040;&#38450;&#22120;&#26448;&#12290;&#20648;&#21306;&#24212;&#22791;&#26377;&#21512;&#13;\n
<dt>&#31283;&#23450;&#24615;&#30456;&#20851;&#65306;</dt>
<dd><b/>
<p>&#13;\n\t\t\t\t \t</p>
<p>&#36991;&#20813;&#19982;&#27687;&#21270;&#29289;&#25509;&#35302;&#12290;</p>\t\t\t\t
</dd>&#13;\n
<dt>&#20854;&#23427;&#20449;&#24687;&#65306;</dt>
<dd><b/>
<p>&#13;\n\t\t\t\t \t</p>
<p>1.&#160;&#160;&#160;&#160;&#160; &#24615;&#29366;&#65306;&#26410;&#30830;&#23450;</p>
<p>2.&#160;&#160;&#160;&#160;&#160; &#23494;&#24230;&#65288;g/mL,20&#8451;&#65289;&#65306;1.027</p>
<p>3.&#160;&#160;&#160;&#160;&#160; &#30456;&#23545;&#33976;&#27773;&#23494;&#24230;&#65288;g/mL,&#31354;&#27668;=1&#65289;&#65306;4.02</p>
<p>4.&#160;&#160;&#160;&#160;&#160; &#29076;&#28857;&#65288;&#186;C&#65289;&#65306;&lt;-70</p>
<p>5.&#160;&#160;&#160;&#160;&#160; &#27832;&#28857;&#65288;&#186;C,&#24120;&#21387;&#65289;&#65306;187</p>
<p>6.&#160;&#160;&#160;&#160;&#160; &#27832;&#28857;&#65288;&#186;C,
kPa&#65289;&#65306;&#26410;&#30830;&#23450;</p>
<p>7.&#160;&#160;&#160;&#160;&#160; &#25240;&#23556;&#29575;&#65306;1.458</p>
<p>8.&#160;&#160;&#160;&#160;&#160; &#38378;&#28857;&#65288;&#186;C&#65289;&#65306;93</p>
<p>9.&#160;&#160;&#160;&#160;&#160; &#27604;&#26059;&#20809;&#24230;&#65288;&#186;&#65289;&#65306;&#26410;&#30830;&#23450;</p>
<p>10.&#160;&#160; &#33258;&#29123;&#28857;&#25110;&#24341;&#29123;&#28201;&#24230;&#65288;&#186;C&#65289;:
&#26410;&#30830;&#23450;</p>
<p>11.&#160;&#160; &#33976;&#27668;&#21387;&#65288;mmHg,20&#186;C&#65289;&#65306;0.4</p>
<p>12.&#160;&#160; &#39281;&#21644;&#33976;&#27668;&#21387;&#65288;kPa, &#186;C&#65289;&#65306;&#26410;&#30830;&#23450;</p>
<p>13.&#160;&#160; &#29123;&#28903;&#28909;&#65288;KJ/mol&#65289;&#65306;&#26410;&#30830;&#23450;</p>
<p>14.&#160;&#160; &#20020;&#30028;&#28201;&#24230;&#65288;&#186;C&#65289;&#65306;&#26410;&#30830;&#23450;</p>
<p>15.&#160;&#160; &#20020;&#30028;&#21387;&#21147;&#65288;KPa&#65289;&#65306;&#26410;&#30830;&#23450;</p>
<p>16.&#160;&#160; &#27833;&#27700;&#65288;&#36763;&#37255;/&#27700;&#65289;&#20998;&#37197;&#31995;&#25968;&#30340;&#23545;&#25968;&#20540;&#65306;&#26410;&#30830;&#23450;</p>
<p>17.&#160;&#160; &#29190;&#28856;&#19978;&#38480;&#65288;%,V/V&#65289;&#65306;&#26410;&#30830;&#23450;</p>
<p>18.&#160;&#160; &#29190;&#28856;&#19979;&#38480;&#65288;%,V/V&#65289;&#65306;&#26410;&#30830;&#23450;</p>
<p>19.&#160;&#160; &#28342;&#35299;&#24615;&#65306;&#26410;&#30830;&#23450;</p>\t\t\t\t
</dd>&#13;\n\t &#13;\n  </div>&#13;\n</dd>
</dl>


这是一个 html 格式 正常我用 //div[@id='phyChem']/h2[text()='物化性质']../div[@class='ip_box']/dl//dt 能拿到 11 个 dt 标签
但是用 //div[@id='phyChem']/h2[text()='物化性质']../div[@class='ip_box']/dl/dt
只能拿到 9 个 dt 标签 请问这个问题是因为什么原因呢?是不是 lxml 的一个 bug 呢?
1214 次点击
所在节点    Python
1 条回复
xiaxichen
2019-04-25 16:57:50 +08:00
已经找到问题了 此贴终结。我犯傻气了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/558661

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX