您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
01 youtube官網網頁版注冊登錄頁面代碼數據(youtube觀看數據暫時凍結)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-07-16 16:18:19【】1人已围观
简介youtube視頻數據分析維度不包括什么發布時間。查詢資料可知,youtube視頻數據分析維度是收入、觀看時間、互動。不包括發布時間。YouTube后臺給我們提供了強大的數據分析工具,通過advanc
youtube視頻數據分析維度不包括什么
發布時間。
查詢資料可知,youtube視頻數據分析維度是收入、觀看時間、互動。不包括發布時間。
YouTube后臺給我們提供了強大的數據分析工具,通過advancedmode的自定義模式我們可以篩選數據,在分析YouTube視頻數據時,你需要清楚自己的目標是什么。
Hive實戰之Youtube數據集
本次實戰的數據來自于"YouTube視頻統計與社交網絡"的數據集,是西蒙弗雷澤大學計算機學院在2008年所爬取的數據
數據集地址
數據之間采用"\t"作為分隔符
具體數據如下:
數據量大小為1G,條數為500萬+
使用環境為
hive-1.1.0-cdh5.4.5
hadoop-2.6.0-cdh5.4.5
演示形式為使用hive shell
我們一起來看看數據
主要的問題在于category和relatedIDs處理,由于Hive是支持array格式的,所以我們想到的是使用array來存儲category和relatedIDs,但是我們發現category的分割符是"&"而realatedIDs的分隔符是"\t",我們在創建表格的時候能夠指定array的分隔符,但是只能指定一個,所以再將數據導入到Hive表格之前我們需要對數據進行一定轉換和清洗
并且數據中肯定會存在一些不完整數據和一些奇怪的格式,所以數據的清洗是必要的,我在這里所使用的數據清洗方式是使用Spark進行清洗,也可以使用自定義UDF函數來進行清洗
數據清洗注意點
1)我們可以看到每行數據以"\t"作為分隔符,每行有十列數據,最后一列關聯ID可以為空,那么我們對數據進行split之后數組的大小要大于8
2)數據中存在 "uNiKXDA8eyQ KRQE 1035 News & Politics 107" 這樣格式的數據,所以在處理category時需要注意 News & Politics中間的 &
處理后的數據如下:
下面的實戰都是基于數據清洗后的數據進行的
1)youtube1的創建,文件格式為textfile
create table youtube1(買粉絲Id string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, 買粉絲ments int,relatedId array<string>)
row format delimited
fields terminated by "\t"
買粉絲llection items terminated by "&"
stored as textfile;
2)youtube2的創建,文件格式為orc
create table youtube2(買粉絲Id string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, 買粉絲ments int,relatedId array<string>)
row format delimited
fields terminated by "\t"
買粉絲llection items terminated by "&"
stored as orc;
3)youtube3的創建,文件格式為orc,進行桶分區
create table youtube3(買粉絲Id string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, 買粉絲ments int,relatedId array<string>)
clustered by (uploader) into 8 buckets
row format delimited
fields terminated by "\t"
買粉絲llection items terminated by "&"
stored as orc;
數據導入:
1)load data inpath "path" into table youtube1;
2)由于無法將textfile格式的數據導入到orc格式的表格,所以數據需要從youtube1導入到youtube2和youtube3:
insert into table youtube2 select * from youtube1;
insert into table youtube3 select * from youtube1;
1)user_tmp的創建,文件格式textfile,24buckets
create table user_tmp(uploader string,買粉絲s int,friends int)
clustered by (uploader) into 24 buckets
row format delimited
fields terminated by "\t"
stored as textfile;
2)user的創建,文件格式orc,24buckets
create table user(uploader string,買粉絲s int,friends int)
clustered by (uploader) into 24 buckets
row format delimited
fields terminated by "\t"
stored as orc;
user表的數據導入也是同理
數據導入:
1)load data inpath "path" into table user_tmp;
2)由于無法將textfile格式的數據導入到orc格式的表格,所以數據需要從user_tmp導入到user:
insert into table user select * from user_tmp;
1)統計出觀看數最多的10個視頻
2)統計出視頻類別熱度的前10個類型
3)統計出視頻觀看數最高的50個視頻的所屬類別
4)統計出觀看數最多的前N個視頻所關聯的視頻的所屬類別排行
5)篩選出每個類別中熱度最高的前10個視頻
6)篩選出每個類別中評分最高的前10個視頻
7)找出用戶中上傳視頻最多的10個用戶的所有視頻
8)篩選出每個類別中觀看數Top10
select * from youtube3 order by views desc limit 10;
結果如下:
select tagId, 買粉絲unt(a.買粉絲id) as sum from (select 買粉絲id,tagId from youtube3 lateral view explode(category) catetory as tagId) a group by a.tagId order by sum desc limit 10;
結果:
select tagId, 買粉絲unt(a.買粉絲id) as sum from (select 買粉絲id,tagId from (select * from youtube3 order by views desc limit 20) e lateral view explode(category) catetory as tagId) a group by a.tagId order by sum desc;
結果:
思路:
結果:
思路:
結果如下:
select * from youtube_category where categoryId="Music" order by ratings desc limit 10;
結果如下:
思路:
結果如下:
豆丁網詳細資料大全
豆丁網創立于2007年,是全球最大的中文社會化閱讀平臺,為用戶提供一切有價值的可閱讀之物。截至2010年,豆丁網已經成功躋身網際網路全球500強,成為提供垂直服務的優秀網站之一。網站擁有分類廣泛的實用文檔、出版物、行業研究報告、以及數千位行業名人貢獻的專業檔案,各類讀物總數超過兩億。豆丁網鼓勵原創、鼓勵分享、尊重和維護上傳者的權益。在豆丁網,你可以分享你的文檔,并通過豆丁發表到不同部落格、論壇以及各種平臺上,進行廣泛傳播,同時還可以以非常環保的方式、低廉的價格看到熱門書刊、雜志、以及各類專業文獻。
豆丁網(Docin)是全球優秀的C2C文檔銷售與分享社區。豆丁允許用戶上傳包括:pdf、doc、ppt、txt在內的數十種格式的文檔檔案,并以Flash Player的形式在網頁中直接展示給讀者。簡而言之,豆丁就如同文檔版的Youtube。每天都有數以萬計的文檔會上傳到豆丁,正基于此,豆丁將致力構建全球最大的中文圖書館。
基本介紹 中文名 :豆丁網 外文名 :docin 網站類型 :C2C文檔分享網站 網站創始人 :林耀成 創立時間 :2007年 官網 ::docin/ 產品與服務,豆丁會議,會議PPT,豆丁書房,豆丁閱讀,播放器,豆丁彩蛋,服務理念,成長歷程,發展歷史,發展現狀, 產品與服務 豆丁會議 豆丁網會議頻道,整合國內最高端會議的商業文檔內容,關注各行業發展動態,挖掘行業文檔的商業價值,提供給行業人員一個專業的知識分享平臺。在這里,能很赞哦!(41)
相关文章
- 06 youtube music 買粉絲s love songs 80s with(經典英文歌曲(永不過時的旋律))
- 06 youtube to mp3 買粉絲 app下載最新版官方(C#的側邊欄技術。答好了加分。)
- 01 買粉絲怎么取消原創保護(已經發布過的買粉絲買粉絲文章怎么撤銷原創聲明?)
- 01 買粉絲怎么加模板(買粉絲買粉絲上漂亮的模板怎么弄)
- 01 買粉絲怎么增加閱讀量(如何刷買粉絲閱讀量)
- 06 youtube to mp3 買粉絲nverter 買粉絲 download music apple tv+價格(尋一個聽歌的網站)
- 01 買粉絲怎么發布付費內容(買粉絲付費文章怎么對特定人免費發布)
- 06 youtube to mp3 320kbps youtube audio library音樂(有沒有可以隨意使用的無版權音樂資源庫?)
- 01 買粉絲怎么發紅包給用戶(請教大神,買粉絲公眾平臺服務號如何給粉絲發紅包?急急急!)
- 01 買粉絲怎么發投票鏈接(買粉絲公眾平臺怎么發起買粉絲投票)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片
职业:程序员,设计师
现居:河北省承德平泉县
工作室:小组
Email:[email protected]
热门文章
站长推荐
01 買粉絲怎么發預覽給別人(在買粉絲買粉絲里發布文章,如何預覽)
06 youtube to mp3 買粉絲nverter software for machine learning(中文翻譯英文轉換器(將語言橋梁搭建得更牢固))
01 買粉絲怎么加抽獎(買粉絲朋友圈里添加的抽獎活動應該怎么做)
06 youtube music on windows 11(木凡的天空中的所有插曲)
01 買粉絲怎么刪除文章里面的照片(買粉絲買粉絲文章里正在編輯的圖片怎么刪除?)
01 買粉絲怎么發推文(買粉絲買粉絲推文怎么做)
06 youtube to mp3 買粉絲nverter ytmp3 cc youtube to wav(哪個有音樂網站給一個)
06 youtube to mp3 320kbps youtube mp3轉換器(ipad有什么使用功能?)