大数据开发作为这两年一个火热的工作岗位,不光是企业的要求严格,竞争力也是比较大的。不管薪资多少,大数据的几个技术栈肯定是要熟练掌握的,下面我们就来看看一些企业面试时常问的几个问题:
1.大数据基础面试题
(1)spark sql 数据优化中,需要注意哪些方面?
a.使用临时视图减少落到磁盘, 不落到磁盘盘是spark的一个优势,中间步骤 全部用 temporary view 代替临时table ,减少读写hdfs的操作
b.spark下建表 文件格式选择,spark默认为textfile,可根据需求使用squenceFile or ORCFile
c.select 指定字段,代替select *
d.spark其他技术,如broadcast, bucket
e.另外spark sql优化还可通过查看sparkUI找到哪一步耗时比较长,针对性优化
(2)如何自定义一个函数供 HiveSql 使用,具体步骤分为哪几步?
Hive使用python编写的自定义函数UDF进行ETL的步骤:
在hive里面加载py文件
add file /usr/local/src/test.py
在HQL中使用TRANSFORM函数动态执行Python文件:
select TRANSFORM(sex) USING ‘python test.py’ as sex from test;
2.大数据常见问题
(1)讲述一个自己掌握的核心技术,以及如何应用?
J2EE:大数据采集单元,大数据分析单元的主要工作,如何做出服务,如何SpringBoot集成Hadoop,Spark。
Hadoop:多少个节点,高并发,高可用的实际问题中解决数据倾斜,数据处理,数据统计,数据离线分析等。
Spark:实时处理中的数据处理,比如算子,复杂的SQL语句等。
机器学习 :分析的数据集生成,数据处理,数据建模,数据预测,数据模型调优。
系统设计:设计数据流,分业务和分模块说。
·个人价值:代码行数,关键问题处理等。
以上就是关于大数据开发的一些面试题了,还有很多的面试题需要大家多看看,想要得到一个好的工作,面试前的一些准备是很重要的。