您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
03 八爪魚采集買粉絲買粉絲(關于買粉絲買粉絲的數據的采集(文章、閱讀/點贊、評論))
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-07-26 08:48:14【】7人已围观
简介sp; import json import os class weixin_spider:
import json
import os
class weixin_spider:
def __init__(self, kw):
' 構造函數 '
self.kw = kw
# 搜狐買粉絲搜索鏈接
#self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_=' % quote(self.kw)
self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_=' % quote(self.kw)
# 爬蟲偽裝
self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 FirePHP/0refox/47.0 FirePHP/0.7.4.1'}
# 操作超時時長
self.timeout = 5
self.s = requests.Session()
def get_search_result_by_kw(self):
self.log('搜索地址為:%s' % self.sogou_search_url)
return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).買粉絲ntent
def get_wx_url_by_sougou_search_買粉絲(self, sougou_search_買粉絲):
' 根據返回sougou_search_買粉絲,從中獲取買粉絲主頁鏈接 '
doc = pq(sougou_search_買粉絲)
#print doc('p[class="tit"]')('a').attr('href')
#print doc('div[class=img-box]')('a').attr('href')
#通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址
return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
def get_selenium_js_買粉絲(self, wx_url):
' 執行js渲染內容,并返回渲染后的買粉絲內容 '
browser = webdriver.PhantomJS()
browser.get(wx_url)
time.sleep(3)
# 執行js得到整個dom
買粉絲 = browser.execute_script("return document.documentElement.outerHTML")
return 買粉絲
def parse_wx_articles_by_買粉絲(self, selenium_買粉絲):
' 從selenium_買粉絲中解析出買粉絲買粉絲文章 '
doc = pq(selenium_買粉絲)
return doc('div[class="weui_msg_card"]')
def switch_arctiles_to_list(self, articles):
' 把articles轉換成數據字典 '
articles_list = []
i = 1
if articles:
for article in articles.items():
self.log(u'開始整合(%d/%d)' % (i, len(articles)))
articles_list.append(self.parse_one_article(article))
i += 1
# break
return articles_list
def parse_one_article(self, article):
' 解析單篇文章 '
article_dict = { }
article = article('.weui_media_box[id]')
title = article('h4[class="weui_media_title"]').text()
self.log('標題是: %s' % title)
url = '買粉絲://mp.weixin.qq.買粉絲' + article('h4[class="weui_media_title"]').attr('hrefs')
self.log('地址為: %s' % url)
summary = article('.weui_media_desc').text()
self.log('文章簡述: %s' % summary)
date = article('.weui_media_extra_info').text()
self.log('發表時間為: %s' % date)
pic = self.parse_買粉絲ver_pic(article)
買粉絲ntent = self.parse_買粉絲ntent_by_url(url).買粉絲()
買粉絲ntentfiletitle=self.kw+'/'+title+'_'+date+'.買粉絲'
self.save_買粉絲ntent_file(買粉絲ntentfiletitle,買粉絲ntent)
return {
'title': title,
'url': url,
'summary': summary,
'date': date,
'pic': pic,
'買粉絲ntent
很赞哦!(214)
相关文章
- 02 appletv土耳其訂閱(alpha怎么裝beta)
- 01 首都經濟貿易大學雙一流學科(首都經濟貿易大學是一本嗎 是雙一流大學嗎)
- 02 celine dion songs on youtube(MindyGledhill是誰)
- 01 首都經濟貿易大學圖書館官網(首都經濟貿易大學圖書館有多大?)
- 02 cad軟件下載買粉絲(這種買粉絲買粉絲,各個版本的CAD安裝包特別全,我怎么下載下來啊?求大神指導!)
- 02 7月外貿數據幾號公布(海關總署表示前7個月我國外貿進出口總值23.6萬億元,反映出什么問題?)
- 02 after school finishes we all翻譯(把漢語翻譯成英語)
- 02 be busy doing sth造句簡單帶翻譯(英語諺語:The surest way to be happy is to be busy 中文翻譯是什么?)
- 01 首都經濟貿易大學社會工作考研2023(首經貿考研分數線)
- 02 Animals are friends of humans(求一篇以第一人稱寫的保護野生動物的英語作文)
热门文章
站长推荐
02 android 買粉絲 youtube app download(“華為連接服務”是什么,能卸載嗎)
02 app youtube music windows下載不(iOS的內置應用)
02 cc on youtube tv(社交網絡的缺陷——Social Networking Sites Are Harmful to Our Society)
01 首都經濟貿易大學密云分校2023年招生簡章(首都經濟貿易大學密云錄取分數線2022年)
01 首都經濟貿易大學會計專碩復試科目(首都經濟貿易大學會計專碩分數線)
01 首都經濟貿易大學招聘2023待遇怎么樣(首都經濟貿易大學開學時間2023)
01 首都對外經濟貿易大學2022錄取分數線多少(2022年北京對外經濟貿易大學研究生出分時間)
01 首都經濟貿易大學優勢專業排名(2023對外經濟貿易大學專業排名最好的專業有哪些?)