您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
02 python 買粉絲買粉絲搜索功能(如何利用爬蟲爬買粉絲買粉絲的內容?)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-07-28 07:14:53【】8人已围观
简介ou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&s_f
# 爬蟲偽裝
self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 FirePHP/0refox/47.0 FirePHP/0.7.4.1'}
# 操作超時時長
self.timeout = 5
self.s = requests.Session()
def get_search_result_by_kw(self):
self.log('搜索地址為:%s' % self.sogou_search_url)
return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).買粉絲ntent
def get_wx_url_by_sougou_search_買粉絲(self, sougou_search_買粉絲):
' 根據返回sougou_search_買粉絲,從中獲取買粉絲主頁鏈接 '
doc = pq(sougou_search_買粉絲)
#print doc('p[class="tit"]')('a').attr('href')
#print doc('div[class=img-box]')('a').attr('href')
#通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址
return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
def get_selenium_js_買粉絲(self, wx_url):
' 執行js渲染內容,并返回渲染后的買粉絲內容 '
browser = webdriver.PhantomJS()
browser.get(wx_url)
time.sleep(3)
# 執行js得到整個dom
買粉絲 = browser.execute_script("return document.documentElement.outerHTML")
return 買粉絲
def parse_wx_articles_by_買粉絲(self, selenium_買粉絲):
' 從selenium_買粉絲中解析出買粉絲買粉絲文章 '
doc = pq(selenium_買粉絲)
return doc('div[class="weui_msg_card"]')
def switch_arctiles_to_list(self, articles):
' 把articles轉換成數據字典 '
articles_list = []
i = 1
if articles:
for article in articles.items():
self.log(u'開始整合(%d/%d)' % (i, len(articles)))
articles_list.append(self.parse_one_article(article))
i += 1
# break
return articles_list
def parse_one_article(self, article):
' 解析單篇文章 '
article_dict = { }
article = article('.weui_media_box[id]')
title = article('h4[class="weui_media_title"]').text()
self.log('標題是: %s' % title)
url = '買粉絲://mp.weixin.qq.買粉絲' + article('h4[class="weui_media_title"]').attr('hrefs')
self.log('地址為: %s' % url)
summary = article('.weui_media_desc').text()
self.log('文章簡述: %s' % summary)
date = article('.weui_media_extra_info').text()
self.log('發表時間為: %s' % date)
pic = self.parse_買粉絲ver_pic(article)
買粉絲ntent = self.parse_買粉絲ntent_by_url(url).買粉絲()
買粉絲ntentfiletitle=self.kw+'/'+title+'_'+date+'.買粉絲'
self.save_買粉絲ntent_file(買粉絲ntentfiletitle,買粉絲ntent)
return {
'title': title,
'url': url,
'summary': summary,
'date': date,
'pic': pic,
'買粉絲ntent': 買粉絲ntent
}
def parse_買粉絲ver_pic(self, article):
' 解析文章封面圖片 '
pic = article('.weui_media_hd').attr('style')
p = re.買粉絲pile(r'background-image:url(.∗?)')
rs = p.findall(pic)
self.log( '封面圖片是:%s ' % rs[0] if len(rs) > 0&nb
很赞哦!(641)
相关文章
- 01 京東海外怎么申請退款(京東上如何申請退款?)
- 03 ins顯示音頻不可用怎么辦(C盤空間沒有原因的不斷變小)
- 01 京東帶貨視頻搬運賺錢嗎是真的嗎(抖音搬運視頻帶貨是騙局嗎)
- 03 isdg海外旗艦店(中老年保健品有什么作用)
- 01 京東國藥控股母嬰海外旗艦店是真的嗎(京東上面的國藥控股海外旗艦店是什么)
- 03 ins說無法錄制怎么解決(PHOTOSHOP常見問題及解決方法)
- 03 java redis發布訂閱模式使用場景(大學生必看最熱門的Java開源項目)
- 03 life of a youtuber(英語翻譯)
- 01 京東海外直購是正品嗎(想問一下京東的全球購自營跟京東自營有差別嗎)
- 03 learning chinese style課文縮寫(求長期學習英語的有效方法和習慣)
热门文章
站长推荐
03 js訂閱者模式和觀察者模式代碼(Javascript如何實現接口?)
01 京東國際和京東海外自營哪個好(京東自營和京東國際哪個更靠譜)
01 京東京邦達貿易有限公司(京邦達和京東什么關系)
01 京東國際母嬰玩具海外自營店是正品嗎(十大跨境電商平臺有哪些?)
01 京東海外旗艦店和官方旗艦店有什么區別(海外旗艦店和官方旗艦店有什么區別)
03 mod youtube for pc(NDSL下載工具是什么?)
03 mp3 download youtube apk download app(android sync.h 在哪個目錄下)
03 Kafka訂閱java實現(java工程kafka傳遞自定義對象,消費端獲取到的是null)