V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
misaka19000
V2EX  ›  问与答

如何把别人的网页整个抓取过来,然后修改网页上的某些内容之后把网页挂到自己的服务器上显示出来?

  •  
  •   misaka19000 · May 6, 2016 · 10991 views
    This topic created in 3644 days ago, the information mentioned may be changed or developed.

    不要喷我 ...

    公司准备做一个产品,用户可以输入一个链接,然后我们帮他做这个链接的页面推广,但是我们要在页面上加上一些内容然后再显示给最终用户能够看到,请问这个要怎么做? PS:这个页面应该挂在我们公司的域名下显示以方便进行下一步的操作。

    爬虫不是没想过,但是感觉有点过于麻烦了,所以想请问大家有没有一些更好的想法 ...

    21 replies    2016-05-09 09:50:38 +08:00
    kindjeff
        1
    kindjeff  
       May 6, 2016
    首先要确定不违法么?
    bdbai
        2
    bdbai  
       May 6, 2016 via Android
    把目标网页放在 iframe 里
    bazingaterry
        3
    bazingaterry  
       May 6, 2016 via iPhone
    nginx 反代?
    JiShuTui
        4
    JiShuTui  
       May 6, 2016
    步骤你已经写出来了
    1 、用户输入网址,提交
    2 、服务器抓取对应网页内容,做替换,输出
    Syc
        5
    Syc  
       May 6, 2016 via Android
    7ghost
    Tink
        6
    Tink  
    PRO
       May 6, 2016 via iPhone
    nginx reverse proxy
    dalaomj
        7
    dalaomj  
       May 6, 2016
    反代
    实时爬虫
    misaka19000
        8
    misaka19000  
    OP
       May 6, 2016
    大家可能没有明白我的意思

    我的意思是用户可以在某一个页面输入好一个网页的链接,然后他点击保存,数据就保存到我们的数据库了

    之后,在这个用户的个人页面,人们可以看到他保存的这个链接,点击这个链接,实际上进入的是我们公司的网址,但是这个现在被看到的页面和链接的源网页基本上是一样的,除了我们稍微需要添加的一小部分内容之外
    lyragosa
        9
    lyragosa  
       May 6, 2016
    @misaka19000 你看,你自己都把详细步骤全部说完了啊
    tabris17
        10
    tabris17  
       May 6, 2016
    不就是个 web 代理么
    lneoi
        11
    lneoi  
       May 6, 2016
    关注关注。我刚好也需要做这个,只是想网目标网页增删点东西,但不懂怎么实现。
    bdbai
        12
    bdbai  
       May 6, 2016 via Android
    单存网页的话目测外部资源(包括样式)全跪,坐等更好的方案。
    cuebyte
        13
    cuebyte  
       May 6, 2016
    对你这样的问题,我可以回答一句无可奉告 曰..曰
    manfay
        14
    manfay  
       May 6, 2016 via iPad
    这简直就是个 read it later 或 Evernote 剪藏的功能嘛
    just1
        15
    just1  
       May 6, 2016 via Android
    nginx 反代
    url 带上网址
    动态设置反代域名

    更复杂涉及存数据库用 lua
    mirrosite
        16
    mirrosite  
       May 7, 2016
    Stupitch
        17
    Stupitch  
       May 7, 2016
    @misaka19000 你的意思就是要做个类似快照的功能,但是同时在快照上要加上自己的广告水印?好像这种技术也挺常见的,虽然我完全不会。我个人倒是建议不如专门搞一块区域放广告或者搞一个类似于水印的东西覆盖在网页上输出,这样既方便又不会严重影响用户体验。
    Exin
        18
    Exin  
       May 7, 2016 via Android
    感觉像是搜索引擎会提供的 snapshot
    misaka19000
        19
    misaka19000  
    OP
       May 7, 2016
    @just1 能不能更详细点?
    ming2281
        20
    ming2281  
       May 7, 2016
    犹记得 curl/wget 有一个整个网站下载选项, 其初始用处是备份网站的

    应该符合楼主场景
    lneoi
        21
    lneoi  
       May 9, 2016
    http://v2ex.com/t/277219#reply5 要做的很像是这样子的吧?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3542 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 73ms · UTC 11:22 · PVG 19:22 · LAX 04:22 · JFK 07:22
    ♥ Do have faith in what you're doing.