分析过程:打开浏览器开发者工具,通过点击下一页可以知道内涵社区的下一页是
动态加载。
复制到浏览器查看一下是json数据
通过仔细分析发现
以下是代码过程
import requests#网络请求模块
import time
#一下是内涵段子分析过程
#真实网址
#http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time=1514600091.0
#上面网址返回的json格式的文件,包含了本页的评论内容和下一页网址的时间戳
#http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time=11514594379
#上面的网址又返回了json文件,包含了本页的评论内容和下一页的时间戳
#故,爬取思路是==》外层循拼接下一页网址,内层循环保存评论内容和下一页的时间戳,内容保存到本地,时间戳返回给外层循环拼接
#注意的是,时间戳可能是整数,也可能是浮点数,
timesamp = 1514600091.0
while type(timesamp) == float or type(timesamp) == int:
time.sleep(2)
url = 'http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time='+str(timesamp)
html = requests.get(url)
for i in range(20):
data = html.json()['data']['data'][i]['group']['text']
print(data,end='\n')
timesamp = html.json()['data']['max_time']
with open('内涵段子.txt','a+',encoding='utf-8') as ff:
ff.write('第'+str(i+1)+'内涵段子:'+data+'\n'*2)
本站以现代、古代情诗为主,情诗网创办于2013年,以原创爱情诗歌、经典情诗、现代情诗、古代情诗、英文情诗、情诗绝句为主并收集古诗、古诗词、诗歌大全、诗词名句的文学门户。方便您下次继续阅读;可以放在浏览器的收藏夹中(快捷键Ctrl+D);或者看到喜欢或者有趣的诗词可以通过分享按钮给你的好友分享;情诗网是目前最全情诗大全网站之一。并欢迎广大诗歌爱好者阅览投稿!喜欢本站的话请大家把本站告诉给你朋友哦!地址是 www.qingshiwang.com !