博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离
阅读量:5104 次
发布时间:2019-06-13

本文共 2769 字,大约阅读时间需要 9 分钟。

1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。

2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。

3. 将字符串格式的发布时间转换成datetime类型

4. 使用正则表达式取得新闻编号

5. 生成点击次数的Request URL

6. 获取点击次数

7. 将456步骤定义成一个函数 def getClickCount(newsUrl):

8. 将获取新闻详情的代码定义成一个函数 def getNewDetail(newsUrl):

9. 尝试用使用正则表达式分析show info字符串,点击次数字符串。

 

# -*- coding: UTF-8 -*-# -*-import requestsimport reimport localelocale=locale.setlocale(locale.LC_CTYPE, 'chinese')from bs4 import BeautifulSoupfrom datetime import datetimeurl = "http://news.gzcc.cn/html/xiaoyuanxinwen/"res = requests.get(url)res.encoding = 'utf-8'soup = BeautifulSoup(res.text, 'html.parser')def getNewDetail(Url):    for news in soup.select('li'):    # print(news)        if len(news.select('.news-list-title'))>0:            t1=news.select('.news-list-title')[0].text            d1=news.select('.news-list-description')[0].text            a=news.select('a')[0].attrs['href']            res = requests.get(a)            res.encoding = 'utf-8'            soupd = BeautifulSoup(res.text, 'html.parser')            c=soupd.select('#content')[0].text            info=soupd.select('.show-info')[0].text            d=info.lstrip('发布时间:')[:19]            print("标题:", t1)            print("链接:", a)            print("展示:", info)            print("正文:", c)            resd = requests.get(a)            resd.encoding = 'utf-8'            soupd = BeautifulSoup(resd.text, 'html.parser')            t = soupd.select('.show-info')[0].text[0:24].lstrip('发布时间:')            dt = datetime.strptime(t, '%Y-%m-%d %H:%M:%S')            print("发布时间:", dt)            au=info[info.find('作者'):].split()[0].lstrip('作者:')            f = info[info.find('来源'):].split()[0].lstrip('来源:')            p = info[info.find('摄影'):].split()[0].lstrip('摄影:')            print("作者:", au)            print("来源:", f)            print("摄影:", p)            getClickCount(a)            break        def getClickCount(newsUrl):            rematch=re.match('http://news.gzcc.cn/html/2018/xiaoyuanxinwen(.*).html',newsUrl).group(1).split('/')[1]            newId=re.search('\_(.*).html',newsUrl).group(1)            refindall=re.findall('\_(.*).html',newsUrl)[0]        # clickUrl="http://oa.gzcc.cn/api.php?op=count&id=9183&modelid=80".format(newId)        # print(rematch)            clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id=9183&modelid=80'            rest = requests.get(clickUrl).text.split('.html')[-1].lstrip("('").rstrip("');")            print("新闻编号:", newId)            print("点击次数URL:", clickUrl)            print("点击次数:",rest)            clickStr = requests.get(clickUrl).text            getClickCount = re.search("hits'\).html\('(.*)'\);", clickStr).group(1)            print("点击次数1:",getClickCount)getNewDetail(url)

 

 

转载于:https://www.cnblogs.com/ashh/p/8763223.html

你可能感兴趣的文章
转载:【Oracle 集群】RAC知识图文详细教程(四)--缓存融合技术和主要后台进程
查看>>
2018-2019-2 网络对抗技术 20165301 Exp 9 Web安全基础
查看>>
将20180608141920转成date格式
查看>>
位操作
查看>>
待续--mysql中key 、primary key 、unique key 与index区别
查看>>
Day19内容回顾
查看>>
【bzoj1050】[HAOI2006]旅行comf 并查集
查看>>
Linux CentOS 6.5 操作环境下修改mysql数据库密码
查看>>
WOW
查看>>
原生时钟代码
查看>>
bootstrap分页
查看>>
洛谷 P1144 最短路计数 解题报告
查看>>
第七次作业
查看>>
c++map的用法
查看>>
js交互
查看>>
vim工具
查看>>
Openssl genrsa命令
查看>>
Openssl crl2pkcs7命令
查看>>
php下载文件代码
查看>>
Google的“那些事”
查看>>