re模块爬取内涵段子

2021-01-11 15:30 | 发布:情诗网 | 分类:内涵情话

re模块爬取内涵段子使用了正则表达式和字符串之间的替换，也使用了urllib2模快获取链接整个html内容，接下来代码展示。

# -*- coding:utf-8 -*-

import re
import urllib2

class Content:

    def __init__(self):
        self.page = 1

    def get_html(self):
        # 获取整个网页的html内容
        headers = {
            "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Mobile Safari/537.36"}
        url = "http://www.neihan8.com/article/list_5_"+str(self.page)+".html"
        request = urllib2.Request(url=url, headers=headers)
        response = urllib2.urlopen(request)
        html = response.read()
        return html

    def get_content(self):
        pattern = re.compile(r'<div.*?class="f18 mb20">(.*?)</div>', re.S)
        content_list = pattern.findall(self.get_html())
        for content in content_list:
            result_content = content.decode('gbk').replace("<p>", "").replace("</p>", "") \
                .replace("&ldquo;", "").replace("<br />", "") \
                .replace("&rdquo;", "").replace("&hellip", "")

            with open("content.txt", "a") as file:
                file.write(result_content.encode("utf-8"))
                file.close

if __name__ == "__main__":

    content = Content()
    while True:
        content.page+=1
        print content.page
        content.get_content()

本站以现代、古代情诗为主，情诗网创办于2013年，以原创爱情诗歌、经典情诗、现代情诗、古代情诗、英文情诗、情诗绝句为主并收集古诗、古诗词、诗歌大全、诗词名句的文学门户。方便您下次继续阅读；可以放在浏览器的收藏夹中（快捷键Ctrl+D）;或者看到喜欢或者有趣的诗词可以通过分享按钮给你的好友分享；情诗网是目前最全情诗大全网站之一。并欢迎广大诗歌爱好者阅览投稿！喜欢本站的话请大家把本站告诉给你朋友哦！地址是 www.qingshiwang.com ！

本文标题:re模块爬取内涵段子
本文地址:http://www.qingshiwang.com/qinghua/17058.html

原创情诗

re模块爬取内涵段子

re模块爬取内涵段子使用了正则表达式和字符串之间的替换，也使用了urllib2模快获取链接整个html内容，接下来代码展示。

你可能感兴趣的文章:

本站为你推荐的文章:

最新内涵情话

内涵情话阅读榜

相关专题栏目