V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jacy
V2EX  ›  PHP

提取html中某内容,求正则

  •  
  •   jacy · 2013-09-25 23:40:32 +08:00 · 5348 次点击
    这是一个创建于 4108 天前的主题,其中的信息可能已经有所发展或是发生改变。
    html如下:

    XXX
    <div class="content">

    XXXX

    </div>
    XXX

    主要是提取content这个div里的内容,但是这里面的内容不固定,可能里面没有其他标签,还可能有其他的div等标签,正则怎样写呢?
    php除了正则还有什么比较方便的方法处理html?
    19 条回复    1970-01-01 08:00:00 +08:00
    yangqi
        1
    yangqi  
       2013-09-25 23:50:30 +08:00
    php正则还是最方便了,这个放在前段用jquery很容易就提取了
    jacy
        2
    jacy  
    OP
       2013-09-25 23:52:55 +08:00
    @yangqi 放前端不行啊,是用php抓取的数据,还需要处理后继续用。
    emric
        3
    emric  
       2013-09-25 23:54:20 +08:00
    Don't try to parse HTML using regex. Find an HTML parser please.
    kojp
        4
    kojp  
       2013-09-25 23:57:51 +08:00 via Android
    A class named snopy

    Have a try.
    yangqi
        5
    yangqi  
       2013-09-26 00:00:33 +08:00
    @jacy 如果只是简单提取内容的话regex可以,要是有各种parsing的话可以试试simplehtml库
    PrideChung
        6
    PrideChung  
       2013-09-26 00:01:57 +08:00
    对于HTML这么复杂的文本正则处理不来的,找个HTML parser才是正道。
    pantaovay
        7
    pantaovay  
       2013-09-26 00:09:00 +08:00
    正则处理不来,用DOM操作吧
    jacy
        8
    jacy  
    OP
       2013-09-26 00:13:46 +08:00
    谢谢,我试试simplehtml。
    mescoda
        9
    mescoda  
       2013-09-26 00:31:01 +08:00   ❤️ 1
    PHP 用 simplehtmldom
    Python 用 [pywebquery](https://github.com/NStal/pywebquery)
    Node 用 [jwebquery](https://github.com/NStal/jwebquery)
    ericls
        10
    ericls  
       2013-09-26 01:06:49 +08:00 via Android
    @mescoda 谢谢 我明天看看
    foru17
        11
    foru17  
       2013-09-26 01:19:07 +08:00
    我记得正则好像是行的。你搜一下 google 搜索结果 正则,参考一下,之前弄过一个类似的。
    faceair
        12
    faceair  
       2013-09-26 06:38:15 +08:00
    <div class=\"content\">([\s\S]+?(<div[\s\S]+?<\/div>)+?[\s\S]+?)<\/div>

    手机写的,你测试下,主要是确定中间的div是一对一对就可以了
    liuyao729
        13
    liuyao729  
       2013-09-26 07:02:33 +08:00
    试试phpQuery
    faceair
        14
    faceair  
       2013-09-26 07:28:11 +08:00
    修改了下,测试貌似通过了

    <div class=\"content\">([\s\S]+?(<div[\s\S]+?<\/div>)*?[\s\S]+?)*?<\/div>
    alexrezit
        15
    alexrezit  
       2013-09-26 07:39:52 +08:00
    不 要 用 正 则.
    找 个 parser 用 XPath 很 难 么?
    cxshun
        16
    cxshun  
       2013-09-26 08:51:24 +08:00
    其实xpath不是更方便么,直接//div[class='content']/*这个就OK啦。正则解析HTML是没办法的选择。
    jiych
        17
    jiych  
       2013-09-26 09:14:24 +08:00
    可以用flex
    junp
        18
    junp  
       2013-09-26 09:25:32 +08:00
    前端方便
    marchtea
        19
    marchtea  
       2013-09-26 13:50:20 +08:00
    用simple_html_dom来读取,再处理吧.直接弄貌似不是很好弄
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5666 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 03:22 · PVG 11:22 · LAX 19:22 · JFK 22:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.