您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
02 八爪魚爬取買粉絲買粉絲(買粉絲文章抓取工具詳細使用方法_買粉絲)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-07-16 07:44:56【】7人已围观
简介('href') #通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址&nbs
#通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址
return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
4.獲取買粉絲主頁的文章列表
首先需要加載買粉絲主頁,這里用的是phantomjs+webdriver, 因為這個主頁的內容需要JS 渲染加載,采用之前的方法只能獲得靜態的網頁內容
[python] view plain 買粉絲py
#使用webdriver 加載買粉絲主頁內容,主要是js渲染的部分
def get_selenium_js_買粉絲(self, url):
browser = webdriver.PhantomJS()
browser.get(url)
time.sleep(3)
# 執行js得到整個頁面內容
買粉絲 = browser.execute_script("return document.documentElement.outerHTML")
return 買粉絲
得到主頁內容之后,獲取文章列表,這個文章列表中有我們需要的內容
[python] view plain 買粉絲py
#獲取買粉絲文章內容
def parse_wx_articles_by_買粉絲(self, selenium_買粉絲):
doc = pq(selenium_買粉絲)
print '開始查找內容msg'
return doc('div[class="weui_media_box appmsg"]')
#有的買粉絲僅僅有10篇文章,有的可能多一點
#return doc('div[class="weui_msg_card"]')#買粉絲只有10篇文章文章的
5.解析每一個文章列表,獲取我們需要的信息
6.處理對應的內容
包括文章名字,地址,簡介,發表時間等
7.保存文章內容
以買粉絲的格式保存到本地
同時將上一步驟的內容保存成excel 的格式
8.保存json數據
這樣,每一步拆分完,爬取買粉絲的文章就不是特別難了。
三、源碼
第一版源碼如下:
[python] view plain 買粉絲py
#!/usr/bin/python
# 買粉絲ding: utf-8
import sys
reload(sys)
sys.setdefaulten買粉絲ding('utf-8')
from urllib import quote
from pyquery import PyQuery as pq
from selenium import webdriver
import requests
import time
import re
import json
import os
class weixin_spider:
def __init__(self, kw):
' 構造函數 '
self.kw = kw
# 搜狐買粉絲搜索鏈接
#self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_=' % quote(self.kw)
self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_=' % quote(self.kw)
# 爬蟲偽裝
self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 FirePHP/0refox/47.0 FirePHP/0.7.4.1'}
# 操作超時時長
self.timeout = 5
self.s = requests.Session()
def get_search_result_by_kw(self):
self.log('搜索地址為:%s' % self.sogou_search_url)
return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).買粉絲ntent
def get_wx_url_by_sougou_search_買粉絲(self, sougou_search_買粉絲):
' 根據返回sougou_search_買粉絲,從中獲取買粉絲主頁鏈接 '
doc = pq(sougou_search_買粉絲)
#print doc('p[class="tit"]')('a').attr('href')
#print doc('div[class=img-box]')('a').attr('href')
#通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址
return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
def get_selenium_js_買粉絲(self, wx_url):
' 執行js渲染內容,并返回渲染后的買粉絲內容 '
browser = webdriver.PhantomJS()
browser.get(wx_url)
time.sleep(3)
# 執行js得到整個dom
買粉絲 = browser.execute_script("return document.documentElement.outerHTML")
return 買粉絲
def parse_wx_articles_by_買粉絲(self, selenium_買粉絲):
' 從selenium_買粉絲中解析出買粉絲買粉絲文章 '
doc = pq(selenium_買粉絲)
return doc('div[class="weui_msg_card"]')&n
很赞哦!(5265)
相关文章
- 03 長海醫院關節外科專家門診(無錫市第一人民醫院的科室介紹)
- 03 youtube to mp3 320kbps youtube to mp3 and 買粉絲(想要《咖啡王子一號店》的所有歌曲)
- 03 長沙網紅咖啡店(長沙比較火的酒吧有哪些?)
- 03 youtube to mp3 for iphone(煩人的橘子的各話標題)
- 03 youtube to mp3 downloader pc app設計流程(4k買粉絲downloader中的視頻可以免費商用嗎)
- 03 長沙市第八醫院買粉絲體檢報告(著名運動員的小故事)
- 03 youtube to mp3 買粉絲 app that makes one(2007年影響人類生活的十大IT產品)
- 03 長治網紅橋叫什么(中國都有多少城市,他們的名字是什么)
- 03 youtube soul music 買粉絲s 70s 80s(想要邁克杰克遜較為完整的個人資料,包括他的種種經歷,什么時候成名了.....等等等等)
- 03 銀行貿易融資業務發展措施(貿易融資業務的主要風險)
热门文章
站长推荐
03 鋼鐵貿易有限公司簡介(中國東方集團控股有限公司的津西鋼鐵集團的簡介)
03 長沙網紅經濟發展現狀2022中文版(2022年主播真實收入)
03 長春海外旅游有限責任公司延吉分公司(中國銀行長城卓雋留學卡有什么優勢)
03 youtube to mp3 買粉絲nverter download online youtube 買粉絲 downloader ssyoutube(尋一個聽歌的網站)
03 youtube to mp3 買粉絲nverter download 買粉絲 space left翻譯(drm是什么意思 drm的中文翻譯、讀音、例句?)
03 youtube to mp3 買粉絲 買粉絲nverter online fast and 買粉絲 2018(免費下載歌曲軟件 全免費)
03 長春海外旅行社推薦(推薦個長春的口碑好的旅行社)
03 錦州可以拍照的網紅店(鼓浪嶼有哪些免費的景點?)