爬虫小说

news/2024/7/19 9:53:13 标签: 爬虫, javascript

# -*- coding:utf -8 -*-
import urllib2
import re
def getlist():
    html = urllib2.urlopen("http://www.quanshu.net/book/0/269/").read()
    reg = re.compile(r'<li><a href="(.*?)" title=".*?">(.*?)</a></li>')
    urls = re.findall(reg,html)
    return urls
def getcontent(url):
    html = urllib2.urlopen("http://www.quanshu.net/book/0/269/"+url).read()              #url为字符串要加到引号外边
    html = html.decode('gbk').encode('utf-8')            #decode("gdk")把decode编码转换为Unicode      #encode("utf-8")把Unicode编码转换为utf-8
    reg = re.compile(r'</script>&nbsp;&nbsp;&nbsp;&nbsp(.*?)<script type="text/javascript">',re.S)    re.S换行
    content = re.findall(reg,html)[0]
    return  content
for i in getlist():
    content = getcontent(i[0])
    content = content.replace('<br /><br />&nbsp;&nbsp;&nbsp;&nbsp;','\r\n')    #\r\n换行

    try:
        with open(i[1]+'.txt','wb') as f:          #w表示可写  b表示二进制
            f.write(content)
    except Exception,e:
        continue

转载于:https://www.cnblogs.com/ZHANG576433951/p/6011165.html


http://www.niftyadmin.cn/n/1076444.html

相关文章

数字IC后端笔试500题出炉(附答案)

数字IC后端笔试500题出炉&#xff01;(附答案) 文章右侧广告为官方硬广告&#xff0c;与吾爱IC社区无关&#xff0c;用户勿点。点击进去后出现任何损失与社区无关。 吾爱 IC 社区 吾爱 IC 社区&#xff08;52-ic.com&#xff09;是一个专业交流和分享数字 IC 设计与实现技术与…

CPrimerPlus第11章第10题

题目&#xff1a; 编写一个程序&#xff0c;读取输入&#xff0c;直到读入了10个字符串或遇到EOF&#xff0c;由二者中最先被满足的那个终止读取过程。这个程序可以为用户提供一个有5个选项的菜单&#xff1a;输出初始字符串列表、按ASCII顺序输出字符串、按长度递增顺序输出字…

ARM Cortex-A7时钟树综合实战分析

ARM Cortex-A7时钟树综合实战分析 文章右侧广告为官方硬广告&#xff0c;与吾爱IC社区无关&#xff0c;用户勿点。点击进去后出现任何损失与社区无关。 吾爱 IC 高端技术交流社区 — 知识星球目前已经拥有1040 位星球成员&#xff08;目前数字 IC 领域最大的高端技术社区&#…

PHP 批量删除

1.在主页面上添加批量删除有关代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns"http://www.w3.org/1999/xhtml"> <head> <…

时钟树综合知识分享

时钟树综合干货分享 文章右侧广告为官方硬广告&#xff0c;与吾爱IC社区无关&#xff0c;用户勿点。点击进去后出现任何损失与社区无关。 在今天主题分享之前&#xff0c;发一个社区的招聘信息。吾爱 IC 社区正式对外招聘讲师 啦。想不想跟小编一起工作&#xff0c;想不想在业余…

Chapter03 通讯和存储装置——相关概念

概念 1、SIM卡&#xff1a;Subscriber Identity Moudle&#xff08;用户身份识别模块&#xff09; 并不是单纯的数据存储器 包含&#xff1a;CPU ROM RAM EEPROM I/O电路 用户使用SIM卡&#xff0c;实际上是手机向SIM卡发送命令&#xff0c;SIM卡根据标准规范来执行或拒绝。 2、…

1-初识java

目录java 历史 Java 平台 Java 开发环境 Java 运行原理[简] Java 历史 这里不详细记录java的历史&#xff0c;只是标记出时间点和事件。 时间点事件1991Sun公司成立Green项目。Oak&#xff08;橡树&#xff09;语言诞生。19921992年9月&#xff0c;Oak语言连同Green OS和一些应…

Innovus中timing eco后setup margin跑哪里去了?(知识星球福利活动)

Innovus中timing eco后setup margin跑哪里去了?(知识星球福利活动) 文章右侧广告为官方硬广告&#xff0c;与吾爱IC社区无关&#xff0c;用户勿点。点击进去后出现任何损失与社区无关。 之前小编承诺知识星球每年会做1-2 次 的优惠活动&#xff08;中秋节和春节&#xff09;&a…