V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
mrco
V2EX  ›  问与答

如何提取 web 日志,并存入 mysql? 在线等

  •  
  •   mrco · 2015-06-25 12:43:35 +08:00 · 2038 次点击
    这是一个创建于 3241 天前的主题,其中的信息可能已经有所发展或是发生改变。
    要解决的问题是:
    分析网站的每一次用户的http request日志,匹配日志中的参数name,并将参数value存储到mysql数据库指定的表中。
    如:下面是一次用户访问,table中。
    127.0.0.1 533 [06/Jun/2015:10:26:31 +0800]- - 200 25994 127.0.0.1 8080 GET /xgz/download?_dc=18088889999&source=gdtjf8934h9hee&title=&author=&processName=&page=1&start=0&limit=50

    需要提取的部分是
    _dc
    source
    title

    谢谢!
    第 1 条附言  ·  2015-06-26 07:58:05 +08:00
    #!/bin/sh
    #采集web日志当前时间前一分钟的数据.
    log=/root/log.txt
    tmp=/tmp/last_min_log.log
    year=`date +'%Y'`
    last_min=`date --date="-1 minutes" | awk -F ':' '{print $1":"$2}'|awk '{print $NF}'`
    time_line="$year:$last_min"
    #找出上一分钟的日志内容,写入文件.
    cat $log grep $time_line |grep -v 400 > $tmp
    cat $tmp | while read line
    do
    ip=`echo "$line" | awk '{print $1}'`
    _dc=`echo "$line" | awk -F '?' '{print $2}' | awk -F '&' '{print $1}' | awk -F '=' '{print $2}'`
    source=`echo "$line" | awk -F '?' '{print $2}' | awk -F '&' '{print $2}' | awk -F '=' '{print $2}'`
    title=`echo "$line" | awk -F '?' '{print $2}' | awk -F '&' '{print $3}' | awk -F '=' '{print $2}'`
    echo "$ip $_dc $source $title"
    #插入db
    mysql -h 127.0.0.1 -uapp -p123123 -e "insert into database.table (ip,_dc,source,title) values('$ip','$_dc','$source','$title')"
    done
    9 条回复    2015-06-25 23:32:21 +08:00
    babyname
        1
    babyname  
       2015-06-25 12:44:48 +08:00
    awk
    mongodb
        2
    mongodb  
       2015-06-25 12:45:48 +08:00
    只能告诉你使用awk..具体怎么弄可以查询awk使用方法。
    mrco
        3
    mrco  
    OP
       2015-06-25 12:48:12 +08:00
    @babyname awk出来之后如何写入mysql昵?
    cylin
        4
    cylin  
       2015-06-25 12:55:55 +08:00
    @mrco 存入数据库这部分要用php、python等语言实现了
    neo2015
        5
    neo2015  
       2015-06-25 13:07:18 +08:00
    ihciah
        6
    ihciah  
       2015-06-25 14:04:12 +08:00
    import urlparse
    url="127.0.0.1 533 [06/Jun/2015:10:26:31 +0800]- - 200 25994 127.0.0.1 8080 GET /xgz/download?_dc=18088889999&source=gdtjf8934h9hee&title=&author=&processName=&page=1&start=0&limit=50"
    url=url[url.find('?'):]
    d=dict(urlparse.parse_qsl(url))
    print d['_dc']

    记得转义
    ihciah
        7
    ihciah  
       2015-06-25 14:15:07 +08:00
    @ihciah
    纠正:url=url[url.find('?'):] -> url=url[url.find('?')+1:]
    附插入数据库代码:
    import pymysql
    conn = pymysql.connect(host='localhost', port=3306, user='root', passwd='', db='mylog',charset='utf8')
    cur = conn.cursor()
    p=lambda x:pymysql.escape_string(x)
    cur.execute("INSERT INTO xx(a,b,c) VALUES('%s','%s','%s')" %(p(d['_dc']),p(d['source']),p(d['title'])))
    conn.commit()
    cur.close()
    conn.close()
    mrco
        8
    mrco  
    OP
       2015-06-25 14:50:04 +08:00
    @ihciah 能否做到实时提取,实时插入昵?
    ihciah
        9
    ihciah  
       2015-06-25 23:32:21 +08:00
    @mrco 实时是指的什么?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4624 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 570ms · UTC 04:05 · PVG 12:05 · LAX 21:05 · JFK 00:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.