Python2 爬虫(三) -- 爬CSDN全部博文(自动获取页数)

news/2024/7/19 11:08:07 标签: 爬虫, python

在这里就学习一下python的字符串处理然后获取到页数之后,我们就啥也不用改,直接运行代码即可获得所有博文。

全局变量。这里我们还要学习一下全局变量的问题

python">import requests
import re

import sys

reload(sys)
sys.setdefaultencoding("utf-8")


def hi(id):
    url = "http://blog.csdn.net/bug_moving/article/details/" + id
    print url
    hea = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'}

    html = requests.get(url, headers=hea)

    print html.status_code

def write2file(content):
    filename = "123.txt"
    f = open(filename, 'a')
    f.write(content + '\n')
    f.close()

def visit(urlnum):
    hea = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'}

    url = 'http://blog.csdn.net/bug_moving/article/list/' + str(urlnum)
    #url = 'http://blog.csdn.net/bug_moving'
    # url = 'http://jp.tingroom.com/yuedu/yd300p/'

    html = requests.get(url, headers=hea)

    html.encoding = 'utf-8'

    title = re.findall('<a href="/bug_moving/article/details/([0-9]*?)">', html.text, re.S)
    for each in title:
        print each
        write2file(each)
        name = re.findall('<a href="/bug_moving/article/details/'+each+'">(.*?)</a>', html.text, re.S)
        for na in name:
            write2file(na)

def setPagelsit():
    hea = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'}

    url = 'http://blog.csdn.net/bug_moving'
    # url = 'http://blog.csdn.net/bug_moving'
    # url = 'http://jp.tingroom.com/yuedu/yd300p/'

    html = requests.get(url, headers=hea)

    html.encoding = 'utf-8'

    index = re.findall('<span>([0-9]*?.*?)</span>', html.text, re.S)
    print index[0].strip()[7:9]
    global pagelist
    pagelist = int(index[0].strip()[7:9])

def loopvisit(f, n):  # f repeats n times
    if n > pagelist:
        return
    else:
        f(n)
        loopvisit(f, n + 1)

setPagelsit()
loopvisit(visit,1)

下一条爬虫估计就会登录一下,因为现在的大多数网站还是需要登录进去才可以访问内容。


http://www.niftyadmin.cn/n/1177123.html

相关文章

Ubuntu14.04下安装docker

http://www.cnblogs.com/xiaoluosun/p/5520510.html转载于:https://www.cnblogs.com/longshiyVip/p/6206229.html

正则表达式--——网页爬虫

网页爬虫import java.net.*; import java.io.*; import java.util.regex.*; class findMail {public static void main(String[] args) throws Exception{//读取流 关联文件//BufferedReader bin new BufferedReader(new FileReader("mail.txt"));//获取网页上的数据…

android通过php连接mysql_Android之网络编程利用PHP操作MySql插入数据(四)

因为最近在更新我的项目&#xff0c;就想着把自己在项目中用到的一些的简单的与网络交互的方法总结一下&#xff0c;所以最近Android网络编程方面的博文会比较多一些&#xff0c;我尽量以最简单的方法给大家分享&#xff0c;让大家明白易懂。如果有什么不对的地方&#xff0c;还…

在 Vue-cli 中引入 Semantic UI

首先&#xff0c;我们需要先安装 jQuery npm install --save jquery然后在 webpack.dev.config.js 文件中&#xff0c;添加 // plugins 区块内 new webpack.ProvidePlugin({$ : "jquery",jQuery : "jquery","window.jQuery"…

mysql中一般用什么字符集_MySql常用字符集

常用字符集位(bit)&#xff1a;是计算机 内部数据 储存的最小单位&#xff0c;11001100是一个八位二进制数。字节(byte)&#xff1a;是计算机中 数据处理 的基本单位&#xff0c;习惯上用大写 B 来表示,1B(byte,字节) 8bit(位)字符&#xff1a;是指计算机中使用的字母、数字、字…

Android中利用泛型简化MVP

简介 封装MvpFragment以及MvpPresenter&#xff0c;简化MVP的构建&#xff0c;达到偷懒的目的。可以参考之前的另一篇文章:Android Mvp实践 最终使用效果 Fragment和Presenter只需分别继承MvpFragmen、MvpPresenter即可进行绑定。 Activity Activity容器,里面放置了两个Fragme…

基础算法1

最近看了《Java编程那些事》博客专栏&#xff0c;在讲到Java流程控制那块&#xff0c;提到了很多自己当初学习过程中涉及到的小算法&#xff0c;都很经典&#xff0c;以后会不断的将接触到的算法更新到本博文中&#xff0c;供自己以后查看&#xff0c;也可以作为大家学习的一个…

【Todo】CSDN的《问底》系列-学习

看到CSDN的这个系列《问底》&#xff0c;看各篇文章的题目感觉不错。好好学习下&#xff1a; http://www.csdn.net/tag/%E9%97%AE%E5%BA%95/news