python 爬虫爬取新东方考研真题

news/2024/7/19 9:44:52 标签: 爬虫, python, 脚本, 新闻

女朋友要考研,想看看各个院校的真题,网上找了下,发现新东方真题库里面的考研真题还挺齐全的,网址:http://new.bj.xdf.cn/zhentiku/daxue/kaoyan/kyzyk/list_381_1.html

于是随手写了个爬虫爬取所有 新闻学 的考研题,脚本如下:

python">from urllib import urlopen
from bs4 import BeautifulSoup
import re

for page in range(17):
    if page == 0:
        continue
    firstUrl = "http://new.bj.xdf.cn/zhentiku/daxue/kaoyan/kyzyk/list_381_" + str(page) + ".html"
    print "[Begin] scrap page", firstUrl
    html = urlopen(firstUrl)
    data = html.read()
    bsobj = BeautifulSoup(data)

    li = bsobj.findAll("a", {"title": re.compile(u"(.*?)新闻(.*?)")})

    for l in li:
        url = "http://new.bj.xdf.cn" + l.attrs["href"]
        filename = l.attrs["title"] + ".html"
        subdata = BeautifulSoup(urlopen(url).read())
        with open(filename, 'w') as f:
            f.write('<meta charset=\"UTF-8\">\n')
            f.write('%s' % subdata.select(".article-wrap"))
            f.close()
    print "[End]" 

http://www.niftyadmin.cn/n/941419.html

相关文章

flask 视频流直播

flask 视频流直播 本文将介绍如何本地通过浏览器查看远端服务器的摄像头采集到的视频。 服务端 实现实时视频流式传输主要采用服务器推送技术。 服务器在响应请求时&#xff0c;HTTP使用MIME报文格式来封装数据。通常一个HTTP响应只能包含一个数据块。但MIME有一种机制可用…

texmaker ubuntu 配置

一直是在 window 下面使用 texmaker 配合 CTex &#xff0c;为了避免频凡的切换&#xff0c;今天解决了在 ubuntu 配置 texmaker。写简历和文档就更放方便了。 Ubuntu商店安装Texmaker安装xetex&#xff1a; $ sudo apt-get install texlive-xetex 解决字体问题&#xff0c;出…

一起回顾本科模电教程

最近由于种种原因回到家乡工作&#xff0c;对于我这个半路出家的开发程序猿&#xff0c;目前需要做一些硬件设计工作&#xff0c;所以呢需要重新拾起本科的模电数电电路电力电子等专业课&#xff0c;鲁迅先生呢有朝花夕拾&#xff0c;我这算什么呢&#xff0c;一时想不出来一个…

Fast rcnn cpu 训练自己的数据

本文介绍如何在 cpu 模式下使用 Faster RCNN demo&#xff0c;以及在cpu 模式下训练自己的数据。 Install Faster-rcnn 源码地址&#xff1a;https://github.com/rbgirshick/py-faster-rcnn 由于 faster rcnn 依赖是基于 caffe 的&#xff0c;所以需要先安装 caffe&#xff…

初识Multisim之放大电路

放大电路的放大作用,实质是把直流电源UCC的能量转移给输出信号。输入信号的作用则是控制这种转移,使放大电路输出信号的变化重复或反映输入信号的变化。 放大电路的核心元件是晶体管,因此,放大电路若要实现对输入小信号的放大作用,必须首先保证晶体管工作在放大区。 晶体管…

我的MATLAB学习之路

暑假7月初开始的MATLAB学习&#xff0c;陆陆续续看完了三本入门级别的书 第一本&#xff1a; 第一本稍微简单点&#xff0c;对稍微有点基础的人来说&#xff0c;是几天就能看完的。里面算例比较多&#xff0c;不过好多都只是help文档里面内容的复制&#xff0c;所以就算看完也…

多级放大电路具体学习

接上篇&#xff0c;单管放大电路或者说基本放大电路虽说可以实现电压的放大&#xff0c;但实际应用中&#xff0c;输入信号通常很小&#xff0c;有时可以低到几mV或者uV级&#xff0c;此时单管放大电路很难独立满足系统性能要求&#xff0c;为了推动负载工作&#xff0c;必须将…

多级放大电路具体学习二()

接上篇&#xff1a; 阻容耦合&#xff1a;放大电路中级与级之间通过电阻和电容连接&#xff0c;或者说信号由输入端通过电阻和电容传到输出端的这种耦合方式就叫做阻容耦合。 如上图所示&#xff0c;由于电容具有隔直和通交的作用&#xff0c;第一级的交流信号可以通过耦合电…