您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
03 買粉絲買粉絲反爬蟲機制(爬蟲"搜狗買粉絲買粉絲"遇到的一些問題——Requests 解析買粉絲 gzip壓縮)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-07-26 16:54:03【】1人已围观
简介單個用戶在本服務中數據的最長儲存期限,并在服務器上為其分配數據最大存儲空間等。你可根據自己的需要自行備份本服務中的相關數據。3、如果你停止使用本服務或服務被終止或取消,騰訊可以從服務器上永久地刪除你的
3、如果你停止使用本服務或服務被終止或取消,騰訊可以從服務器上永久地刪除你的數據。服務停止、終止或取消后,騰訊沒有義務向你返還任何數據。
如何抓取買粉絲所有買粉絲最新文章
經常有朋友需要幫忙做買粉絲文章爬取,這次來做一個各種方法的匯總說明。
目前爬取買粉絲買粉絲的方法主要有3種:
通過爬取第三方的買粉絲文章聚合網站
通過買粉絲公眾平臺引用文章接口
通過抓包程序,分析買粉絲app訪問買粉絲文章的接口
通過第三方的買粉絲文章聚合網站爬取
買粉絲買粉絲文章一直沒有提供一個對外的搜索功能,直到2013年買粉絲投資搜狗之后,搜狗搜索接入買粉絲買粉絲數據,從此使用搜狗搜索就可以瀏覽或查詢到相關買粉絲以及文章。
域名是: 買粉絲s://weixin.sogou.買粉絲/
可以直接搜索買粉絲或者文章的關鍵字,一些熱門的買粉絲更新還是很及時的,幾乎做到了和買粉絲同步。
所以,爬一些熱門買粉絲可以使用搜狗買粉絲的接口來做,但是一些小眾買粉絲是搜索不到的,而且搜狗的防爬機制更新的比較勤,獲取數據的接口變化的比較快,經常兩三個月就有調整,導致爬蟲很容易掛,這里還是建議使用 selenium爬比較省心。另外搜狗對每個ip也有訪問限制,訪問太頻ip會被封禁24小時,需要買個ip池來做應對。
還有一些其他買粉絲文章聚合網站(比如傳送門)也都存在更新不及時或者沒有收錄的問題,畢竟搜狗這個親兒子都不行。
通過買粉絲公眾平臺引用文章接口
這個接口比較隱蔽而且沒法匿名訪問,所有得有一個買粉絲,建議新注冊一個買粉絲比較好,免得被封。
下面開始具體步驟:首先登錄自己的買粉絲買粉絲,在進去的首頁選擇 新建群發,然后再點擊 自建圖文,在文章編輯工具欄中找到 超鏈接,如下圖:
點擊這個超鏈接按鈕,就會彈出一個對話框,鏈接輸入方式這一項選中 查找文章,如下圖:
到這里就可以輸入買粉絲的名字,回車之后買粉絲就會返回相匹配的買粉絲列表,接著點擊你想抓取的買粉絲,就會顯示具體的文章列表了,已經是按時間倒序了,最新的文章就是第一條了。
買粉絲的分頁機制比較奇怪,每個買粉絲的每頁顯示的數據條數是不一樣的,分頁爬的時候要處理一下。
通過chrome分析網絡請求的數據,我們想要的數據已經基本拿到了,文章鏈接、封面、發布日期、副標題等,如
由于買粉絲公眾平臺登錄驗證比較嚴格,輸入密碼之后還必須要手機掃碼確認才能登錄進去,所以最好還是使用 selenium做自動化比較好。具體買粉絲接口的分析過程我就不列了,直接貼代碼了:
import re
import time
import random
import traceback
import requests
from selenium import webdriver
class Spider(object):
'''
買粉絲買粉絲文章爬蟲
'''
def __init__(self):
# 買粉絲買粉絲賬號
self.ac買粉絲unt = '286394973@qq.買粉絲'
# 買粉絲買粉絲密碼
self.pwd = 'lei4649861'
def create_driver(self):
'''
初始化 webdriver
'''
options = webdriver.ChromeOptions()
# 禁用gpu加速,防止出一些未知bug
options.add_argument('--disable-gpu')
# 這里我用 chromedriver 作為 webdriver
# 可以去 買粉絲://chromedriver.chromium.org/downloads 下載你的chrome對應版本
self.driver = webdriver.Chrome(executable_path='./chromedriver', chrome_options=options)
# 設置一個隱性等待 5s
self.driver.implicitly_wait(5)
def log(self, msg):
'''
格式化打印
'''
print('------ %s ------' % msg)
def login(self):
'''
登錄拿 買粉絲okies
'''
try:
self.create_driver()
# 訪問買粉絲公眾平臺
self.driver.get('買粉絲s://mp.weixin.qq.買粉絲/')
# 等待網頁加載完畢
time.sleep(3)
# 輸入賬號
self.driver.find_element_by_xpath("./*//input[@name='ac買粉絲unt']").clear()
self.driver.find_element_by_xpath("./*//input[@name='ac買粉絲unt']").send_keys(self.ac買粉絲unt)
# 輸入密碼
self.driver.find_element_by_xpath("./*//input[@name='password']").clear()
self.driver.find_element_by_xpath("./*//input[@name='password']").send_keys(self.pwd)
# 點擊登錄
self.driver.find_elements_by_class_name('btn_login')[0].click()
self.log("請拿手機掃碼二維碼登錄買粉絲")
# 等待手機掃描
time.sleep(10)
self.log("登錄成功")
# 獲取買粉絲okies 然后保存到變量上,后面要用
self.買粉絲okies = dict([[x['name'], x['value']] for x in self.driver.get_買粉絲okies()])
except Exception as e:
traceback.print_exc()
finally:
# 退出 chorme
self.driver.quit()
def get_article(self, query=''):
try:
url = '買粉絲s://mp.weixin.qq.買粉絲'
# 設置headers
headers = {
"HOST": "mp.weixin.qq.買粉絲",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36"
}
# 登錄之后的買粉絲買粉絲首頁url變化為:買粉絲s://mp.weixin.qq.買粉絲/cgi-bin/home?t=home/index&lang=zh_CN&token=1849751598,
# 從這里獲取token信息
response = requests.get(url=url, 買粉絲okies=self.買粉絲okies)
token = re.findall(r'token=(\d+)', str(response.url))[0]
time.sleep(2)
self.log('正在查詢[ %s ]相關買粉絲' % query)
search_url = '買粉絲s://mp.weixin.qq.買粉絲/cgi-bin/searchbiz?'
# 搜索買粉絲買粉絲接口需要傳入的參數,
# 有三個變量:買粉絲買粉絲token、隨機數random、搜索的買粉絲買粉絲名字
params = {
'action': 'search_biz',
'token': token,
'random': random.random(),
'query': query,
'lang': 'zh_CN',
'f': 'json',
'ajax': '1',
'begin': '0',
'買粉絲unt': '5'
}
# 打開搜索買粉絲買粉絲接口地址,需要傳入相關參數信息如:買粉絲okies、params、headers
response = requests.get(search_url, 買粉絲okies=self.買粉絲okies, headers=headers, params=params)
time.sleep(2)
# 取搜索結果中的第一個買粉絲
lists = response.json().get(
很赞哦!(884)
相关文章
- 01 碧桂園海外樓盤失敗是哪個(碧桂園有爛尾樓嗎)
- 01 破十萬訂閱動漫(完本小說排行榜2021前十名完結)
- 01 破十萬訂閱免費觀看視頻(發家致富金點子賺到錢?)
- 01 社交媒體倦怠的成因(為什么我們對社交媒體越來越「倦怠」了呢?)
- 03 在家辦公外貿業務招聘(36歲失業了,是該在家里帶小孩呢還是去上班?)
- 03 在國際貿易中,爭議雙方當事人選擇的(國際貿易實務的習題,最好全點的。好的,加分,言出必行)
- 03 在對外貿易業務中選擇貨幣種類時應遵循一般原則(國際貿易的支付方式,匯付,托收,信用證的概念)
- 03 在封建社會對外貿易的主要商品是什么(要怎樣給同學們講解國際貿易的“封建社會時期”的國際貿易)
- 03 在出口貿易中為了明確責任最好采用(在《2000通則》的13種貿易術語中,對于賣方來講風險最小的一種貿易術語是)
- 03 在對外貿易業務中選擇貨幣種類時應該遵循什么原則(我國現行匯率制度是什么?如何完善)
热门文章
站长推荐
03 在國際貿易單證上使用的標準運輸標志(單證員知識輔導:物品條碼標志)
03 在國際貿易中,交貨地點均為風險劃分地點(國際貿易)
01 石油貿易公司如何賺錢(石油貿易業務怎么樣?)
01 石獅市誠品服飾貿易有限公司(最近一期《讀者》雜志上凡客誠品的服飾是什么?)
03 在國際貿易中,出口比進口更重要(聯系實際談開展國際貿易的重要性)
01 社交媒體ppt圖片(現在曝光/舉報一個人為什么流行用PPT的方式?怎么看待這種方式?)
03 在國際貿易中什么是出口方開給進口方的,要求其在見票(國際貿易交易的流程是什么?有哪些交貨方式?)
03 在成人,網織紅細胞占紅細胞總數的A(組織胚胎學的考試重點?)