您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
01 youtube music 買粉絲s 2022 hits youtube 2022(偶想問下哦,有沒有介紹shakira的英文文章)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-07-19 06:17:13【】6人已围观
简介Hive實戰之Youtube數據集本次實戰的數據來自于"YouTube視頻統計與社交網絡"的數據集,是西蒙弗雷澤大學計算機學院在2008年所爬取的數據數據集地址數據之間采用"\t"作為分隔符具體數據如
Hive實戰之Youtube數據集
本次實戰的數據來自于"YouTube視頻統計與社交網絡"的數據集,是西蒙弗雷澤大學計算機學院在2008年所爬取的數據
數據集地址
數據之間采用"\t"作為分隔符
具體數據如下:
數據量大小為1G,條數為500萬+
使用環境為
hive-1.1.0-cdh5.4.5
hadoop-2.6.0-cdh5.4.5
演示形式為使用hive shell
我們一起來看看數據
主要的問題在于category和relatedIDs處理,由于Hive是支持array格式的,所以我們想到的是使用array來存儲category和relatedIDs,但是我們發現category的分割符是"&"而realatedIDs的分隔符是"\t",我們在創建表格的時候能夠指定array的分隔符,但是只能指定一個,所以再將數據導入到Hive表格之前我們需要對數據進行一定轉換和清洗
并且數據中肯定會存在一些不完整數據和一些奇怪的格式,所以數據的清洗是必要的,我在這里所使用的數據清洗方式是使用Spark進行清洗,也可以使用自定義UDF函數來進行清洗
數據清洗注意點
1)我們可以看到每行數據以"\t"作為分隔符,每行有十列數據,最后一列關聯ID可以為空,那么我們對數據進行split之后數組的大小要大于8
2)數據中存在 "uNiKXDA8eyQ KRQE 1035 News & Politics 107" 這樣格式的數據,所以在處理category時需要注意 News & Politics中間的 &
處理后的數據如下:
下面的實戰都是基于數據清洗后的數據進行的
1)youtube1的創建,文件格式為textfile
create table youtube1(買粉絲Id string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, 買粉絲ments int,relatedId array<string>)
row format delimited
fields terminated by "\t"
買粉絲llection items terminated by "&"
stored as textfile;
2)youtube2的創建,文件格式為orc
create table youtube2(買粉絲Id string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, 買粉絲ments int,relatedId array<string>)
row format delimited
fields terminated by "\t"
買粉絲llection items terminated by "&"
stored as orc;
3)youtube3的創建,文件格式為orc,進行桶分區
create table youtube3(買粉絲Id string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, 買粉絲ments int,relatedId array<string>)
clustered by (uploader) into 8 buckets
row format delimited
fields terminated by "\t"
買粉絲llection items terminated by "&"
stored as orc;
數據導入:
1)load data inpath "path" into table youtube1;
2)由于無法將textfile格式的數據導入到orc格式的表格,所以數據需要從youtube1導入到youtube2和youtube3:
insert into table youtube2 select * from youtube1;
insert into table youtube3 select * from youtube1;
1)user_tmp的創建,文件格式textfile,24buckets
create table user_tmp(uploader string,買粉絲s int,friends int)
clustered by (uploader) into 24 buckets
row format delimited
fields terminated by "\t"
stored as textfile;
2)user的創建,文件格式orc,24buckets
create table user(uploader string,買粉絲s int,friends int)
clustered by (uploader) into 24 buckets
row format delimited
fields terminated by "\t"
stored as orc;
user表的數據導入也是同理
數據導入:
1)load data inpath "path" into table user_tmp;
2)由于無法將textfile格式的數據導入到orc格式的表格,所以數據需要從user_tmp導入到user:
insert into table user select * from user_tmp;
1)統計出觀看數最多的10個視頻
2)統計出視頻類別熱度的前10個類型
3)統計出視頻觀看數最高的50個視頻的所屬類別
4)統計出觀看數最多的前N個視頻所關聯的視頻的所屬類別排行
5)篩選出每個類別中熱度最高的前10個視頻
6)篩選出每個類別中評分最高的前10個視頻
7)找出用戶中上傳視頻最多的10個用戶的所有視頻
8)篩選出每個類別中觀看數Top10
select * from youtube3 order by views desc limit 10;
結果如下:
select tagId, 買粉絲unt(a.買粉絲id) as sum from (select 買粉絲id,tagId from youtube3 lateral view explode(category) catetory as tagId) a group by a.tagId order by sum desc limit 10;
結果:
select tagId, 買粉絲unt(a.買粉絲id) as sum from (select 買粉絲id,tagId from (select * from youtube3 order by views desc limit 20) e lateral view explode(category) catetory as tagId) a group by a.tagId order by sum desc;
結果:
思路:
結果:
思路:
結果如下:
select * from youtube_category where categoryId="Music" order by ratings desc limit 10;
結果如下:
思路:
結果如下:
播個跑步的歌曲
適合跑步播的歌曲有:《奔跑》《江南style》《Runaway Baby》《Good Feeling》《Domino》。
1、《奔跑》
《奔跑》是由黃征填詞譜曲,胡海泉編曲一首歌曲,收入于黃征2003年3月1日發行的專輯《愛情諾曼底》。這首歌節奏明快,勵志的歌詞會讓人興奮。
2、《江南style》
《江南style》于2012年8月28日超越卡莉·蕾·吉普森發表的單曲《Call Me Maybe》成為當周YouTube百大音樂視頻榜(YouTube Top 100 Music Videos)第一名。這首神曲,帶給人的力量可謂是非常神奇的,在跑步的時候特別適合聆聽。
3、《Runaway Baby》
《Runaway Baby》是美國流行搖滾歌手Bruno Mars在2010年發布的首張錄音室專輯專輯《Doo-Wops & Hooligans》中的一首歌曲。屬于輕型搖滾,適合中速的晨跑。
4、《Good Feeling》
《Good Feeling》是Flo Rida演唱的歌曲,收錄在2020年12月25日專輯《Happy New Year(Explicit)》中。屬于混合型電子搖滾,聽久了也不會累。
5、《Domino》
《Domino》是Jessie J演唱的一首歌曲,詞曲由Jessie J、Dr.Luke、克勞德·凱利、馬克斯·馬丁和亨利·沃爾特編寫,由Dr.Luke和Cirkut制作,收錄于Jessie J的首張錄音室專輯《Who You Are》中。屬于新搖滾偏DJ,特別適合在江邊和空曠的環境下跑步。
英語作文
"Jiangnan Style" issued in July
很赞哦!(7)
相关文章
- youtube music pc app download(youtube music下載的文件在哪里)
- youtube music pc apple官網登錄id(如何讓YTmusic在后臺播放)
- youtube music on mac(2014蘋果廣告英語歌名)
- youtube music offline music(如何讓YTmusic在后臺播放)
- 01 高級感小眾ins壁紙花(ins風小眾網名,女生網名ins高級質感)
- youtube music pc app store下載錯誤(安卓4.0.3的操作系統是不是有兩種版本?)
- 01 高級國際貿易業務員工作內容(外貿專員是做什么的)
- 01 高熒光強度網織紅細胞比率高2倍嚴重嗎(驗血結果“低熒光網織紅細胞比率”“中熒光網織紅細胞比率”“高熒光網織紅細胞比率”的值代表了什么?)
- youtube music mp3 download apple序列號查詢(youtube music下載的文件在哪里)
- youtube music free download online convert(如何在youtubemusic中創建快捷指令)
热门文章
站长推荐
youtube music pc apple music下載的音樂在哪 mac(有沒有 不用ITUNES 直接刷機的辦法啊)
01 高級手機壁紙ins(仙女ins森系頭像,仙女ins森系壁紙)
youtube music pc desktop app(如何讓YTmusic在后臺播放)
youtube music on apple watch without phone(幫忙翻譯一段IPHONE廣告)
01 高校海外人才引進政策2020(麗水市人才引進政策)
01 高職考外貿類專業技能操作答案(考外貿單證員考試需要看哪些書啊)
youtube music pc apple官網香港官網(今日新聞淺談:Youtube Music 也加入串流音樂服務大混戰)
01 高質女頭像ins溫柔模糊真人(求頭像女ins高級質感高清轉運必備合集資源~高清的最好,謝謝!!)