亚洲国产精品小说章节列表,亚洲综合久久加勒比,日韩不卡手机视频在线观看,综合婷婷久久影院一,亚洲第一五月天婷婷丁香导航,亚洲国产天堂久久综合

合肥做網(wǎng)站,選擇瘋狗科技,專(zhuān)業(yè)、敬業(yè)的合肥網(wǎng)絡(luò )公司
首頁(yè) > 網(wǎng)站技術(shù) > 詳情

使用 Node.js 開(kāi)發(fā)資訊爬蟲(chóng)流程

2018-01-10 14:22:56   來(lái)源:互聯(lián)網(wǎng)   瀏覽:  次
最近項目需要一些資訊,因為項目是用 Node js 來(lái)寫(xiě)的,所以就自然地用 Node js 來(lái)寫(xiě)爬蟲(chóng)了項目地址:github com mrtanweijie…,項目里面爬取了 Readhub 、 開(kāi)源中國 、 開(kāi)發(fā)者頭條 、 36Kr 這幾個(gè)網(wǎng)站的資訊內容

最近項目需要一些資訊,因為項目是用 Node.js 來(lái)寫(xiě)的,所以就自然地用 Node.js 來(lái)寫(xiě)爬蟲(chóng)了

項目地址:github.com/mrtanweijie… ,項目里面爬取了 Readhub 、 開(kāi)源中國 、 開(kāi)發(fā)者頭條 、 36Kr 這幾個(gè)網(wǎng)站的資訊內容,暫時(shí)沒(méi)有對多頁(yè)面進(jìn)行處理,因為每天爬蟲(chóng)都會(huì )跑一次,現在每次獲取到最新的就可以滿(mǎn)足需求了,后期再進(jìn)行完善

爬蟲(chóng)流程概括下來(lái)就是把目標網(wǎng)站的HTML下載到本地再進(jìn)行數據提取。

一、下載頁(yè)面

Node.js 有很多http請求庫,這里使用 request ,主要代碼如下: 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
requestDownloadHTML () {
 const options = {
  url: this.url,
  headers: {
  'User-Agent': this.randomUserAgent()
  }
 }
 return new Promise((resolve, reject) => {
  request(options, (err, response, body) => {
  if (!err && response.statusCode === 200) {
   return resolve(body)
  } else {
   return reject(err)
  }
  })
 })
 }

使用 Promise 來(lái)進(jìn)行包裝,便于后面使用的時(shí)候用上 async/await 。因為有很多網(wǎng)站是在客戶(hù)端渲染的,所以下載到的頁(yè)面不一定包含想要的HTML內容,我們可以使用 Google 的 puppeteer 來(lái)下載客戶(hù)端渲染的網(wǎng)站頁(yè)面。眾所周知的原因,在 npm i 的時(shí)候 puppeteer 可能因為需要下載Chrome內核導致安裝會(huì )失敗,多試幾次就好了:) 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
puppeteerDownloadHTML () {
 return new Promise(async (resolve, reject) => {
  try {
  const browser = await puppeteer.launch({ headless: true })
  const page = await browser.newPage()
  await page.goto(this.url)
  const bodyHandle = await page.$('body')
  const bodyHTML = await page.evaluate(body => body.innerHTML, bodyHandle)
  return resolve(bodyHTML)
  } catch (err) {
  console.log(err)
  return reject(err)
  }
 })
 }

當然客戶(hù)端渲染的頁(yè)面最好是直接使用接口請求的方式,這樣后面的HTML解析都不需要了,進(jìn)行一下簡(jiǎn)單的封裝,然后就可以像這樣使用了: #滑稽 :)

1
await new Downloader('http://36kr.com/newsflashes', DOWNLOADER.puppeteer).downloadHTML()

二、HTML內容提取

HTML內容提取當然是使用神器 cheerio 了, cheerio 暴露了和 jQuery 一樣的接口,用起來(lái)非常簡(jiǎn)單。瀏覽器打開(kāi)頁(yè)面 F12 查看提取的頁(yè)面元素節點(diǎn),然后根據需求來(lái)提取內容即可 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
readHubExtract () {
 let nodeList = this.$('#itemList').find('.enableVisited')
 nodeList.each((i, e) => {
  let a = this.$(e).find('a')
  this.extractData.push(
  this.extractDataFactory(
   a.attr('href'),
   a.text(),
   '',
   SOURCECODE.Readhub
  )
  )
 })
 return this.extractData
 }

三、定時(shí)任務(wù)

1
2
3
4
5
6
7
8
9
10
11
cron 每天跑一跑
function job () {
 let cronJob = new cron.CronJob({
 cronTime: cronConfig.cronTime,
 onTick: () => {
  spider()
 },
 start: false
 })
 cronJob.start()
}

四、數據持久化

數據持久化理論上應該不屬于爬蟲(chóng)關(guān)心的范圍,用 mongoose ,創(chuàng )建Model 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import mongoose from 'mongoose'
const Schema = mongoose.Schema
const NewsSchema = new Schema(
 {
 title: { type: 'String', required: true },
 url: { type: 'String', required: true },
 summary: String,
 recommend: { type: Boolean, default: false },
 source: { type: Number, required: true, default: 0 },
 status: { type: Number, required: true, default: 0 },
 createdTime: { type: Date, default: Date.now }
 },
 {
 collection: 'news'
 }
)
export default mongoose.model('news', NewsSchema)

基本操作

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import { OBJ_STATUS } from '../../Constants'
class BaseService {
 constructor (ObjModel) {
 this.ObjModel = ObjModel
 }
 
 saveObject (objData) {
 return new Promise((resolve, reject) => {
  this.ObjModel(objData).save((err, result) => {
  if (err) {
   return reject(err)
  }
  return resolve(result)
  })
 })
 }
}
export default BaseService

資訊

1
2
3
4
import BaseService from './BaseService'
import News from '../models/News'
class NewsService extends BaseService {}
export default new NewsService(News)

愉快地保存數據

1
await newsService.batchSave(newsListTem)

更多內容到Github把項目clone下來(lái)看就好了。

總結

 

原文鏈接:https://juejin.im/post/5a506e6d51882573450156e3?utm_source=tuicool&utm_medium=referral

亚洲国产精品小说章节列表,亚洲综合久久加勒比,日韩不卡手机视频在线观看,综合婷婷久久影院一,亚洲第一五月天婷婷丁香导航,亚洲国产天堂久久综合 一区二区三国产精华液| 亚洲色图无码视频深夜福利| 在线欧美精品国产综合五月| 国产亚州精品女人久久久久久| 国产a∨国片精品白丝美女视频| 亚洲在av人极品无码| 中文无码欧美人妻日韩精品| 久久亚洲综合中文字幕| 中文字幕丝袜制服| 欧美人与动性行为视频| 在线观看2022国产无码| 最新国产剧情av观看| 一区二区中文字幕无码成人片| 亚洲国产成人综合精品| 欧美亚洲日韩日本综合久久| 亚洲中文字幕一二区精品自拍| 亚洲国产精品福利一区| 中文字幕电影免费高清播放| 日欧一片内射Va在线影院| 精品亚洲AⅤ无码专区毛片| 亚洲AⅤ无码日韩AV妖精| 亚洲无线码一区二区三区| 日韩少妇人妻精品中文字幕| 亚洲精品宾馆在线精品酒店| 亚洲美女视频一区二区三区| 日韩欧美一区二区三区| aV无码精品人妻系列| 欧美一区二区在线观看| 亚洲AV无码久久国产精品| 中文字幕日韩精品久久| 91无码人妻精品1国产一区二区| 亚洲第一区无码专区| 国产成人AV无码精品天堂| 午夜精品夜夜观看麻豆| 亚洲熟妇无码一区| 又黄又湿免费高清视频| 国产免费av片在线无码免费看| 中文字幕在线影院dghgzs| 性A性欧美A色多| 亚洲av中文aⅤ无码专区久久| 国产精品无码素人福利| http://dprenf.com http://bjsxszs.com http://jidianst.com http://023jiaoyu.com http://782906.com http://sdgdjyedu.com