移动端菜单

SEO与python应用编程:网站日志分析小功能

大唐营销老胡 2019-09-07 14:47:07 python培训 阅读

导读:(1)使用python获取百度蜘蛛(baiduspider)抓取了网站哪些URL(2)获取百度蜘蛛抓取URL的日志
SEO与python应用编程:
 
# -*- coding: utf-8 -*-#
# - - - - - - - - - - - - - - - - - - - - - - -
# 主  题: SEO与python应用编程
# 作  者: 大唐营销老胡
# 微  信: 2371482842
# 博  客: www.datangyingxiao.com
# - - - - - - - - - - - - - - - - - - - - - - -
# SEO与python应用编程实现需求:
# (1)使用python获取百度蜘蛛(baiduspider)抓取了网站哪些URL
# (2)获取百度蜘蛛抓取URL的日志
# (3)按照一定的格式输出百度蜘蛛抓取URL的日志及抓取的URL地址
# (4)监控这些URL地址百度搜索收录情况

import re

#打开存放网站日志的log_test.txt文件,log_test.txt中存放了预先收集好的日志记录
with open('log_test.txt','r') as f:
    for log in f:#循环遍历文件中的内容
        log = log.strip()
        log_data = log.split(' ') #按照空格进行切片分割
        data = log_data[3].replace('[','')
        url = 'http://www.datangyingxiao.com' + log_data[6]
        print ('百度蜘蛛抓取日期:{data}- -百度蜘蛛抓取网址:{url}'.format(data = data,url = url) )

f.close()

输出内容:

百度蜘蛛抓取日期:06/Sep/2019:09:24:36- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/seo/
百度蜘蛛抓取日期:06/Sep/2019:11:00:23- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/seo/qiye/124.html
百度蜘蛛抓取日期:05/Sep/2019:09:06:35- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/seo/gongju/108.html
百度蜘蛛抓取日期:05/Sep/2019:11:43:35- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/seo/zhenduan/123.html
百度蜘蛛抓取日期:06/Sep/2019:07:53:04- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/sem/zhuanyuan/
百度蜘蛛抓取日期:06/Sep/2019:09:25:06- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/http://www.datangyingxiao.com/sem/
百度蜘蛛抓取日期:06/Sep/2019:09:40:23- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/http://www.datangyingxiao.com/sem/
百度蜘蛛抓取日期:06/Sep/2019:10:27:03- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/sem/edian/40.html
百度蜘蛛抓取日期:06/Sep/2019:03:13:05- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/python/ide/117.html
百度蜘蛛抓取日期:05/Sep/2019:10:36:54- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/python/shipin/122.html
百度蜘蛛抓取日期:06/Sep/2019:04:19:44- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/sns/doing/default/all.html
百度蜘蛛抓取日期:06/Sep/2019:04:53:03- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/sns/doing/default/all/38.html
百度蜘蛛抓取日期:06/Sep/2019:06:23:03- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/sns/doing/default/all/2.html
百度蜘蛛抓取日期:06/Sep/2019:09:25:20- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/sns/
百度蜘蛛抓取日期:05/Sep/2019:07:59:55- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/sns/article-15004.html
百度蜘蛛抓取日期:06/Sep/2019:23:20:43- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/tags-etagid26-0.html
百度蜘蛛抓取日期:06/Sep/2019:00:13:04- -百度蜘蛛抓取网址:http://www.datangyingxiao.com/tags-etagid99-0.html

百度蜘蛛抓取网址记录单:网站日志抓取及百度页面收录分析记录

相关内容推荐阅读:

python爬虫收集网站特定URL链接的方法
python ide PyCharm推荐使用
python实现统计网站文章收录率及收录情况
SEO利用python制作生成网站地图sitemap.xml
python零基础入门书籍推荐
python开发获取爱站网竞争对手排名关键词工具
SEO利用python获取百度下拉框关键词实现方法

文章作者: 大唐营销老胡
文章地址:http://www.datangyingxiao.com/python/peixun/126.html
版权所有:转载时必须以链接形式注明作者和原始出处及本声明。

大唐营销老胡 大唐营销老胡微信二维码
栏目导航
最新文章
热门文章
热门标签