Node.js爬取科技新闻网站cnBeta(附前端及服务端源码)

news/2024/7/19 12:09:21 标签: 前端, 爬虫, 数据库

前言

一直很喜欢看科技新闻,多年来一直混迹于cnBeta,以前西贝的评论区是匿名的,所以评论区非常活跃,各种喷子和段子,不过也确实很欢乐,可以说那是西贝人气最旺的时候。然而自从去年网信办出台了《互联网跟帖评论服务管理规定》,要求只有实名认证的用户,才能进行留言、评论之后,往日的活跃的的评论区瞬间沦陷,人气大跌。其实说到底,还是西贝没有跟上移动互联网的潮流,至今还止步于PC互联网时代,网页广告太多,而移动应用质量堪忧,体验极差,虽然有不少第三方的应用,但由于没有官方的支持,体验上还是不够好,例如如果官方发布一些改版,第三方的应用基本都会挂掉。

所以为了方便平时阅读cnBeta的新闻,就打算通过爬虫把cnBeta的新闻爬下来,自建一个m站,这样体验可控,并且没有广告(`∀´)Ψ。其实项目很早就完成了,只是现在才有空(闲情)写一篇分享出来。

概述

本项目爬虫及服务端github地址:github.com/hudingyu/cn…

前端github地址:github.com/hudingyu/cn…

技术细节

  • 使用 async await 做异步逻辑的处理。
  • 使用 async库 来做循环遍历,以及并发请求操作。
  • 使用 log4js 来做日志处理
  • 使用 cheerio 来做新闻详情页的分析抓取。
  • 使用 mongoose 来连接mongoDB 做数据的保存以及操作。

目录结构

目录结构

├── bin              // 入口
│   ├── article-list.js      // 抓取新闻列表逻辑
│   ├── content.js          // 抓取新闻内容逻辑
│   ├── server.js      // 服务端程序入口
│   └── spider.js      // 爬虫程序入口
├── config             // 配置文件
├── dbhelper           // 数据库操作方法目录
├── middleware      // koa2 中间件
├── model          // mongoDB 集合操作实例
├── router         // koa2 路由文件
├── utils         // 工具函数
├── package.json       
复制代码

方案分析

首先看爬虫程序入口文件,整体逻辑其实很简单,先抓取新闻列表,存入MongoDB数据库,每十分钟抓取一次。新闻列表抓取之后,在数据库查询列表中没有新闻内容的新闻,开始抓取新闻详情,然后更新到数据库

const articleListInit = require('./article-list');
const articleContentInit = require('./content');
const logger = require('../config/log');

const start = async() => {
    let articleListRes = await articleListInit();
    if (!articleListRes) {
        logger.warn('news list update failed...');
    } else {
        logger.info('news list update succeed!');
    }

    let articleContentRes = await articleContentInit();
    if (!articleContentRes) {
        logger.warn('article content grab error...');
    } else {
        logger.info('article content grab succeed!');
    }
};

if (typeof articleListInit === 'function') {
    start();
}
setInterval(start, 600000);
复制代码

接着看抓取新闻列表的逻辑,因为可以获取到新闻列表的Ajax接口,所以直接调用接口获取列表信息。但是也有个问题,cnBeta新闻列表的缩略图以及文章里的的图片是有防盗链的,所以你在自己的网站是没法直接使用它的图片的,所以我是直接把cnBeta的图片文件爬下来存到自己的服务器上。

/**
 * 初始化方法 抓取文章列表
 * @returns {Promise.<*>}
 */
const articleListInit = async() => {
    logger.info('grabbing article list starts...');
    const pageUrlList = getPageUrlList(listBaseUrl, totalPage);
    if (!pageUrlList) {
        return;
    }
    let res = await getArticleList(pageUrlList);
    return res;
}

/**
 * 利用分页接口获取文章列表
 * @param pageUrlList
 * @returns {Promise}
 */
const getArticleList = (pageUrlList) => {
    return new Promise((resolve, reject) => {
        async.mapLimit(pageUrlList, 1, (pageUrl, callback) => {
            getCurPage(pageUrl, callback);
        }, (err, result) => {
            if (err) {
                logger.error('get article list error...');
                logger.error(err);
                reject(false);
                return;
            }
            let articleList = _.flatten(result);
            downloadThumbAndSave(articleList, resolve);
        })
    })
};

/**
 * 获取当前页面的文章列表
 * @param pageUrl
 * @param callback
 * @returns {Promise.<void>}
 */
const getCurPage = async(pageUrl, callback) => {
    let num = Math.random() * 1000 + 1000;
    await sleep(num);
    request(pageUrl, (err, response, body) => {
        if (err) {
            logger.info('current url went wrong,url address:' + pageUrl);
            callback(null, null);
            return;
        } else {
            let responseObj = JSON.parse(body);
            if (responseObj.result && responseObj.result.list) {
                let newsList = parseObject(articleModel, responseObj.result.list, {
                    pubTime: 'inputtime',
                    author: 'aid',
                    commentCount: 'comments',
                });
                callback(null, newsList);
                return;
            }
            console.log("出错了");
            callback(null, null);
        }
    });
};

const downloadThumbAndSave = (list, resolve) => {
    const host = 'https://static.cnbetacdn.com';
    const basepath = './public/data';
    if (list.indexOf(null) > -1) {
        resolve(false);
    } else {
        try {
            async.eachSeries(list, (item, callback) => {
                let thumb_url = item.thumb.replace(host, '');
                item.thumb = thumb_url;
                if (!fs.exists(thumb_url)) {
                    mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf('/')), () => {
                        request
                            .get({
                                url: host + thumb_url,
                            })
                            .pipe(fs.createWriteStream(path.join(basepath, thumb_url)))
                            .on('error', (err) => {
                                console.log("pipe error", err);
                            });
                        callback(null, null);
                    });
                }
            }, (err, result) => {
                if (!err) {
                    saveDB(list, resolve);
                }
            });
        }
        catch(err) {
            console.log(err);
        }
    }
};

/**
 * 将文章列表存入数据库
 * @param result
 * @param callback
 * @returns {Promise.<void>}
 */
const saveDB = async(result, callback) => {
    //console.log(result);
    let flag = await dbHelper.insertCollection(articleDbModel, result).catch(function (err){
        logger.error('data insert falied');
    });
    if (!flag) {
        logger.error('news list save failed');
    } else {
        logger.info('list saved!total:' + result.length);
    }
    if (typeof callback === 'function') {
        callback(true);
    }
};
复制代码

再来看抓取新闻内容的逻辑,这里是直接根据新闻的sid得到新闻内容页的html,然后利用cheerio库分析获取我们需要的新闻内容。当然这里也是要把文章中的图片爬下来存入服务器,并且把存入数据库的新闻内容中图片链接替换成自己服务器中的URL。

/**
 * 抓取正文程序入口
 * @returns {Promise.<*>}
 */
const articleContentInit = async() => {
    logger.info('grabbing article contents starts...');
    let uncachedArticleSidList = await getUncachedArticleList(articleDbModel);
    // console.log('未缓存的文章:'+ uncachedArticleSidList.join(','));
    const res = await batchCrawlArticleContent(uncachedArticleSidList);
    if (!res) {
        logger.error('grabbing article contents went wrong...');
    }
    return res;
};

/**
 * 查询新闻列表获取sid列表
 * @param Model
 * @returns {Promise.<void>}
 */
const getUncachedArticleList = async(Model) => {
    const selectedArticleList = await dbHelper.queryDocList(Model).catch(function (err){
        logger.error(err);
    });
    return selectedArticleList.map(item => item.sid);
    // return selectedArticleList.map(item => item._doc.sid);
};

/**
 * 批量抓取新闻详情内容
 * @param list
 * @returns {Promise}
 */
const batchCrawlArticleContent = (list) => {
    return new Promise((resolve, reject) => {
        async.mapLimit(list, 3, (sid, callback) => {
            getArticleContent(sid, callback);
        }, (err, result) => {
            if (err) {
                logger.error(err);
                reject(false);
                return;
            }
            resolve(true);
        });
    });
};

/**
 * 抓取单篇文章内容
 * @param sid
 * @param callback
 * @returns {Promise.<void>}
 */
const getArticleContent = async(sid, callback) => {
    let num = Math.random() * 1000 + 1000;
    await sleep(num);
    let url = contentBaseUrl + sid + '.htm';
    request(url, (err, response, body) => {
        if (err) {
            logger.error('grabbing article content went wrong,article url:' + url);
            callback(null, null);
            return;
        }
        const $ = cheerio.load(body, {
            decodeEntities: false
        });
        const serverAssetPath = `${serverIp}:${serverPort}/data`;
        let domainReg = new RegExp('https://static.cnbetacdn.com','g');
        let article = {
            sid,
            source: $('.article-byline span a').html() || $('.article-byline span').html(),
            summary: $('.article-summ p').html(),
            content: $('.articleCont').html().replace(styleReg.reg, styleReg.replace).replace(scriptReg.reg, scriptReg.replace).replace(domainReg, serverAssetPath),
        };
        saveContentToDB(article);
        let imgList = [];
        $('.articleCont img').each((index, dom) => {
            imgList.push(dom.attribs.src);
        });
        downloadImgs(imgList);
        callback(null, null);
    });
};

/**
 * 下载图片
 * @param list
 */
const downloadImgs = (list) => {
    const host = 'https://static.cnbetacdn.com';
    const basepath = './public/data';
    if (!list.length) {
        return;
    }
    try {
        async.eachSeries(list, (item, callback) => {
            let num = Math.random() * 500 + 500;
            sleep(num);
            if (item.indexOf(host) === -1) return;
            let thumb_url = item.replace(host, '');
            item.thumb = thumb_url;
            if (!fs.exists(thumb_url)) {
                mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf('/')), () => {
                    request
                        .get({
                            url: host + thumb_url,
                        })
                        .pipe(fs.createWriteStream(path.join(basepath, thumb_url)))
                        .on("error", (err) => {
                            console.log("pipe error", err);
                        });
                    callback(null, null);
                });
            }
        });
    }
    catch(err) {
        console.log(err);
    }
};
/**
 * 保存到文章内容到数据库
 * @param article
 */
const saveContentToDB = (item) => {
    let flag = dbHelper.updateCollection(articleDbModel, item);
    if (flag) {
        logger.info('grabbing article content succeeded:' + item.sid);
    }
};
复制代码

爬虫部分差不多就是这样,还有一点就自己服务器存储的爬取的图片每天都会有上百张甚至上千张,时间一长,图片占用的存储空间就会特别大,所以需要定时清理一下,有兴趣的可以看看项目里面的clear-expire.js文件。

总结

其实,虽然这个项目整体并不复杂,但是一套前后端系统搭建起来的过程中,自己的收获还是挺不少的,很多问题的解决需要自己去实践和思考的,对于性能优化考量也是一个重要的方面。

下面截图就是我最终完成得m站,界面很清爽,体验上确实比cnBeta官网要好很多。这样是平时看科技新闻也确实方便很多。

以上


http://www.niftyadmin.cn/n/1661628.html

相关文章

Spring4.X + Spring MVC + Mybatis3 零配置应用开发框架搭建详解(1) - 基本介绍

Spring4.X Spring MVC Mybatis3 零配置应用开发框架搭建详解(1) - 基本介绍 两年前一直在做后台的纯java开发&#xff0c;很少涉及web开发这块&#xff0c;最近换了个纯的互联网公司&#xff0c;需要做Web后台管理系统&#xff0c;之前都是用xml配置的项目&#xff0c;接触了…

多态的意义(四十二)

我们之前学习了函数重写&#xff0c;它便是在父类中被重写的函数依然会继承给子类&#xff0c;那么子类中重写的函数将覆盖父类中的函数&#xff0c;通过作用域分辨符&#xff08;::&#xff09;可以访问到父类中的函数。最后在全局函数中通过传递父类的指针&#xff0c;传递进…

API和微服务的未来正在建设中

API和微服务的未来正在建设中 API是当今IT行业发展最快&#xff0c;影响业务的技术。借助API&#xff0c;开发人员可以利用其他应用程序中现有计算机程序的功能。自计算机编程第一次开始以来&#xff0c;API已经存在了很长一段时间。 多年来&#xff0c;基于技术进步&#xff…

Spring4.X + Spring MVC + Mybatis3 零配置应用开发框架搭建详解 (2) - 基础框架搭建

Spring4.X Spring MVC Mybatis3 零配置应用开发框架搭建详解 (2) - 基础框架搭建 开发工具&#xff1a;【IntelliJ IDEA 14.1】 开发环境&#xff1a;【jdk1.7.0_79】、【tomcat 7】、【Maven3.0.5】 1&#xff1a;创建Maven项目目录 1.1&#xff1a;创建项目组 第一…

Spring4.X + Spring MVC + Mybatis3 零配置应用开发框架搭建详解(4) - Scheduled注解实现任务调度

Spring4.X Spring MVC Mybatis3 零配置应用开发框架搭建详解(4) - Scheduled注解实现任务调度 1. 创建定时调度任务 很多项目都需要通过调度任务去完成一些非交互性的工作&#xff0c;比如定时更新数据库&#xff0c;定时统计上一天的数据等等。在零配置框架中&#xff0c;…

ThreadLocal父子线程之间的数据传递问题

2019独角兽企业重金招聘Python工程师标准>>> 一、问题的提出 在系统开发过程中常使用ThreadLocal进行传递日志的RequestId&#xff0c;由此来获取整条请求链路。然而当线程中开启了其他的线程&#xff0c;此时ThreadLocal里面的数据将会出现无法获取&#xff0f;读取…

CentOS7搭建Kubernetes dashboard

CentOS7搭建Kubernetes dashboard一 环境声明Centos7三台&#xff0c;master节点一台&#xff0c;node节点两台Dashboard需要一个镜像&#xff0c;需要执行命令下载&#xff1a;docker pull mritd/kubernetes-dashboard-amd64:v1.5.1ps:还有很多其他的镜像也能搭建dashboard&am…

[杭州][北京][社招][校招]支付宝会员增长团队需要你

Job Title 高级Java开发工程师/架构师Requirement&#xff1a; 扎实的 Java 编程基础&#xff0c;熟悉常用的 Java 开源框架&#xff1b;具有分布式&#xff0c;高并发&#xff0c;高可用系统的研发经验&#xff1b;良好的架构能力。可以协同多个组拿到较好的架构解决方案&…