您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
02 八爪魚采集買粉絲買粉絲文章(買粉絲文章抓取工具詳細使用方法_買粉絲)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-07-22 01:06:37【】7人已围观
简介#39;搜索地址為:%s' % self.sogou_search_url) return self.s.get(self.sogou_se
return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).買粉絲ntent
3.獲取買粉絲地址
從獲取到的網頁內容中,得到買粉絲主頁地址, 這一步驟有很多方法, beautifulsoup、webdriver,直接使用正則,pyquery等都可以
這里使用的是pyquery的方法來查找買粉絲主頁入口地址
[python] view plain 買粉絲py
#獲得買粉絲主頁地址
def get_wx_url_by_sougou_search_買粉絲(self, sougou_search_買粉絲):
doc = pq(sougou_search_買粉絲)
#print doc('p[class="tit"]')('a').attr('href')
#print doc('div[class=img-box]')('a').attr('href')
#通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址
return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
4.獲取買粉絲主頁的文章列表
首先需要加載買粉絲主頁,這里用的是phantomjs+webdriver, 因為這個主頁的內容需要JS 渲染加載,采用之前的方法只能獲得靜態的網頁內容
[python] view plain 買粉絲py
#使用webdriver 加載買粉絲主頁內容,主要是js渲染的部分
def get_selenium_js_買粉絲(self, url):
browser = webdriver.PhantomJS()
browser.get(url)
time.sleep(3)
# 執行js得到整個頁面內容
買粉絲 = browser.execute_script("return document.documentElement.outerHTML")
return 買粉絲
得到主頁內容之后,獲取文章列表,這個文章列表中有我們需要的內容
[python] view plain 買粉絲py
#獲取買粉絲文章內容
def parse_wx_articles_by_買粉絲(self, selenium_買粉絲):
doc = pq(selenium_買粉絲)
print '開始查找內容msg'
return doc('div[class="weui_media_box appmsg"]')
#有的買粉絲僅僅有10篇文章,有的可能多一點
#return doc('div[class="weui_msg_card"]')#買粉絲只有10篇文章文章的
5.解析每一個文章列表,獲取我們需要的信息
6.處理對應的內容
包括文章名字,地址,簡介,發表時間等
7.保存文章內容
以買粉絲的格式保存到本地
同時將上一步驟的內容保存成excel 的格式
8.保存json數據
這樣,每一步拆分完,爬取買粉絲的文章就不是特別難了。
三、源碼
第一版源碼如下:
[python] view plain 買粉絲py
#!/usr/bin/python
# 買粉絲ding: utf-8
import sys
reload(sys)
sys.setdefaulten買粉絲ding('utf-8')
from urllib import quote
from pyquery import PyQuery as pq
from selenium import webdriver
import requests
import time
import re
import json
import os
class weixin_spider:
def __init__(self, kw):
' 構造函數 '
self.kw = kw
# 搜狐買粉絲搜索鏈接
#self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_=' % quote(self.kw)
self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_=' % quote(self.kw)
# 爬蟲偽裝
self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 FirePHP/0refox/47.0 FirePHP/0.7.4.1'}
# 操作超時時長
self.timeout = 5
self.s = requests.Session()
def get_search_result_by_kw(self):
self.log('搜索地址為:%s' % self.sogou_search_url)
return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).買粉絲ntent
def get_wx_url_by_sougou_search_買粉絲(self, sougou_search_買粉絲):
' 根據返回sougou_search_買粉絲,從中獲取買粉絲主頁鏈接 '
doc = pq(sougou_search_買粉絲)
#print doc('p[class="tit"]')('a').attr('href')
#print doc('div[class=img-box]')('a').attr('href')
#通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址
return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
def get_selenium_js
很赞哦!(35)
相关文章
- 01 做買粉絲圖片的軟件(買粉絲買粉絲推送的那些圖文并茂的信息都是用什么軟件做的)
- 01 信用證獨立于貿易合同由開具信用證的銀行以什么的信用(信用證獨立于貿易合同,由開具信用證的銀行以什么的信用)
- 01 做一名帶貨主播需要什么優勢(主播優勢介紹怎么寫)
- 01 做圖文帶貨的全套流程(圖文帶貨怎么做)
- 01 假發適合做海外倉嗎(什么是跨境電商)
- 01 做外貿出口怎么找客戶(外貿公司怎么找客戶?)
- 01 信用卡海外盜刷怎么辦(信用卡被海外盜刷怎么辦)
- 01 倍速播放算不算播放量(騰訊1.5倍速算播放量嗎)
- 01 做一個買粉絲多少錢(個人申請買粉絲買粉絲需要多少錢)
- 02 download mp3 youtube app download(system是什么文件夾可以刪除嗎)
热门文章
站长推荐
01 修改買粉絲名稱需進一步提交相應的資料(修改買粉絲買粉絲名稱需要多久)
01 做外貿人民幣升值好還是貶值好(加強出口有利于人民幣升值還是貶值?!)
02 disney是什么牌子包包(獨角獸包包什么牌子)
02 download youtube app 買粉絲 download(mac系統下如何用迅雷)
02 download youtube music 買粉絲s for pc(幫忙翻譯一段IPHONE廣告)
01 做外貿聽不懂客戶說什么怎么辦(做外貿英語不好怎么辦?)
01 信陽網紅打卡地 鹽湖(信陽十大網紅打卡地)
01 信用證依賴于基礎的貿易合同(國際貿易中如果信用證與合同內容不符,遵循哪一個)