BeautifulSoup 如何提取标签中被<br/>隔开的内容？

用 BS 解析这个 div 标签，然后打印结果只有第一行文字，到第一个
就结束了，这是为什么?

需要解析的内容：

<div class="text1">
- 乐视网即将复牌 关注分级基金溢价机会 </br>
- 航信转债 6 月 8 日付息登记日，每张 0.2 元</br>
- 量化模型中不同买卖时间的效果对比 & 今日翻多创业板指数</br>
- 不惑之年魔都土著夫妇如何保住自己的养老积蓄？</br>
</div>

python 代码

content_soup = soup.find('div',class_='text1').get_text()
print content_soup

hiwljun

2016-06-03 07:15:54 +08:00

html = '<div class="text1"> \
- 乐视网即将复牌关注分级基金溢价机会 </br> \
- 航信转债 6 月 8 日付息登记日，每张 0.2 元</br> \
- 量化模型中不同买卖时间的效果对比 & 今日翻多创业板指数</br> \
- 不惑之年魔都土著夫妇如何保住自己的养老积蓄？</br></div>'
soup = BeautifulSoup(html, 'lxml')
text = soup.find('div', 'text1').get_text(strip=True).encode('utf-8')
print text

测试可以取到全部内容。

YUX

2016-06-03 07:17:15 +08:00

是 html.parser 的锅
你看这样

soup = BeautifulSoup(html_doc, "html.parser")
print(soup)

输出会是什么? 是

<div class="text1">
- 乐视网即将复牌关注分级基金溢价机会 </div>
- 航信转债 6 月 8 日付息登记日，每张 0.2 元
- 量化模型中不同买卖时间的效果对比 & 今日翻多创业板指数
- 不惑之年魔都土著夫妇如何保住自己的养老积蓄？

html.parser 把第一个</br>解析成了</div>

换一个解析器就好了, 比如 lxml HTML 解析器 > pip install lxml
soup = BeautifulSoup(html_doc, "lxml")
content_soup = soup.find('div',class_='text1').get_text()
print(content_soup)

输出就是

- 乐视网即将复牌关注分级基金溢价机会
- 航信转债 6 月 8 日付息登记日，每张 0.2 元
- 量化模型中不同买卖时间的效果对比 & 今日翻多创业板指数
- 不惑之年魔都土著夫妇如何保住自己的养老积蓄？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/283130

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.