Hadoop面试题
- Hadoop的三种部署模式?Hadoop最初元数据放在哪里?要想多个客户端访问,元数据要放在哪里?
- 分桶表和分区表的区别?
- 项目中如何实现拉链表?
python基础(面向大数据开发)
如果你是面向python开发,那么我的这些应该是不够用的,我的这些只够大数据开发人员使用;
每一个岗位它对一门语言的要求掌握程度是不一样的;
但是我写的这些你必须要会,它是基础中的基础。
容器
不可变容器
- 字符串str
- 元组tuple
可变容器
- 列表 list
- 字典 dict
- 集合 set
方法
公共方法
查找 in | not in
切片: print(str[start:stop:step]) # 注意和substr区分 索引从0开始
str = 中长跑路上的crush
print(data_str[1:5]) # 默认步长为1
print(data_str[2:-1]) # 自己运行代码自己理解,我被坑过,每天的理解和语言组织是不一样的
hive中的substr("中长跑路上的crush",1,4) #str索引从0开始 ,它是从1 开始,4代表取四个长度
#结果 :中长跑路
str.count(x) # 没错和hive中一样
len()
list
# (1)定义一个列表变量1,用于存放几个知名大学名称;
data_list1 = ['北京大学','五道口职业学院']
print(data_list1)
# (2)定义一个列表变量2,用于存放某学生的姓名、年龄、存款、是否男生等信息;
data_list2 = ['张三',18,10000.29,'男']
print(data_list2)
# 列表嵌套,也就列表中可以再存储列表数据
data_list3 = [['张三',18,10000.29,'男'],['李四',20,100.29,'男']]
print(data_list3)
# 要把字符串Python转换为列表list类型的值,该怎么做?
# 使用append方法
# 定义空列表
data_list4 = []
print(data_list4)
for i in 'itcast':
data_list4.append(i)
print(data_list4)
# split方法切割的数据存入到列表中
data = 'itcast'
data_list5 = data.split()
print(data_list5)h
list添加
# (1)定义一个列表变量,存放内容:中国,美国,英国,俄罗斯;
data_list = ["中国", "美国", "英国", "俄罗斯"]
# (2)在列表结尾处添加元素:德国;
data_list.append('德国') # 将数据添加到列表的末尾
print(data_list)
# (3)在元素美国后添加元素:日本;
data_list.insert(2, '日本') # 指定索引位置写入数据
print(data_list)
# (4)思考:若要在列表变量的结尾处,再新增元素:100,200,300,该怎么做?
data_list2 = [100, 200, 300]
# 对原始data_list列表数据进行增加新的数据
data_list.extend(data_list2) # 将一个列表数据添加到另一个列表结尾
print(data_list)
# 将多个列表数据合并到一个新的列表,并不改变原来的data_list数据
data_list3 = data_list + data_list2
print(data_list3)
list删除
# (2)使用remove()删除元素:英国;
data_list.remove('英国') # 根据指定的元素数据删除
print(data_list)
# (3)使用del删除元素:美国;
del data_list[1] # 根据指定的索引位置删除数据
print(data_list)
字典
# 字典的数据遍历
# 定义一个空字典
data_dict = {}
# 字段数据添加
data_dict['name'] = '张三'
print(data_dict)
key = 'age'
value = 18
data_dict[key] = value # data_dict['age'] = 18
print(data_dict)
# 修改字典数据
# 如果key存在是修改数据 ,如果key不存在则增加数据
data_dict['name'] = '李四'
print(data_dict)
# 删除字典
del data_dict['name']
print(data_dict)
# 查询字典
data = data_dict.get('age')
print(data)
data1 = data_dict.get('name','itcast')
print(data1)
# 添加数据
data_dict['name'] = '李四'
#字典循环遍历
print('-------------字典遍历-------------')
print(data_dict)
# for循环时会取出key
for k in data_dict:
print(k)
for k in data_dict.keys():
print(k)