请选择 进入手机版 | 继续访问电脑版

Google Cloud + Hive 讲解

[复制链接]
茂忠想你 发表于 2020-12-31 20:22:10 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
这篇博客主要解说如何在Google Cloud上使用Hive.
这篇博客使用的数据是movies_few.csv.
部门截图如下:

步调一:创建Google Cloud Project:
首先进入Google Cloud Console的界面:

点击"New Project"

进入到这个界面,必须有Billing account, 否则是不能使用Google Cloud的

步调二:创建Google Cloud Storage bucket来存储要使用的数据
进入Storage -> Browser

创建一个storage bucket:




步调三:创建好bucket之后,就创建一个folder来存储要做实验的数据:


步调四:上传需要做实验的数据到创建好的folder:
有两种办法上传:


  • 跟下面的截图一样做法
  • 可以直接把文件拖拽进来

    步调五: 创建一个Dataproc Cluster
    必须得将Cloud Dataproc API enabled了,否则是用不了的







步调六:点击SSH进入master node:



步调七:可以查察dataset in cloud storage
  1. # 下令gsutil ls gs://hive-test-example/example-data
复制代码

步调八:使用jdbc hive 来运行Beeline shell
  1. # 下令beeline -u jdbc:hive2://localhost:10000/default -n       [myusername@clustername-m] -d       org.apache.hive.jdbc.HiveDriver
复制代码

这时就可以使用HIVE 下令来做训练了
步调九:创建一个table

这样就代表成功了
Note:


  • CREATE TABLE下令中的EXTERNAL子句将把源数据文件留在云文件存储(CFS)中。使用这种方法,原始数据将保持在原来的位置(在本例中是gs: bucket),但是可以操纵新创建的表。
  • 另一方面,你可以使用CREATE TABLE,不带EXTERNAL子句,将数据从CFS (gs:在这种情况下)以表的形式移动到HIVE文件系统中。一旦数据被移动到HIVE表中,文件就会从通例CFS中删除。
步调十:数table里一共有多少行:

步调十一:从table里选择10行:

步调十二:退出HIVE terminal

步调十三: 删除cluster, cloud storage bucket:



如果觉得不错,就点赞大概关注大概留言~~
谢谢~ ~

来源:https://blog.csdn.net/BSCHN123/article/details/111940952
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


专注素材教程免费分享
全国免费热线电话

18768367769

周一至周日9:00-23:00

反馈建议

27428564@qq.com 在线QQ咨询

扫描二维码关注我们

Powered by Discuz! X3.4© 2001-2013 Comsenz Inc.( 蜀ICP备2021001884号-1 )