最近在整理题库,将题库转换成EXECL表格后,再配合Python写的检索脚本可以很直观的得到自己想要的信息。唯一美中不足的是,表格内又重复题目,为了精简文件及浏览的直观性,使用Python写了一个EXECL相同行数据去重的脚本。
脚本如下:
import pandas as pd
# 读取Excel文件
input_file = '需去重目录文件名.xlsx'
df = pd.read_excel(input_file)
# 删除重复行数据并保存到新文件
output_file = '去重后需要保存的目录文件名.xlsx'
df.drop_duplicates(inplace=True)
df.to_excel(output_file, index=False)
print(f'处理完成,去重后的文件保存在{output_file}中')
貌似这个是单一文件的处理方式,延伸想了想,针对目录内的所有EXECL文件进行批量去重,脚本如下:
import pandas as pd
import os
# 获取当前目录下所有Excel文件
excel_files = [f for f in os.listdir() if f.endswith('.xlsx') or f.endswith('.xls')]
# 对每个Excel文件进行去重操作
for f in excel_files:
# 读取Excel文件到DataFrame
df = pd.read_excel(f)
# 进行去重操作
df = df.drop_duplicates()
# 保存去重后的Excel文件
new_file_name = os.path.splitext(f)[0] + '_去重后.xlsx'
df.to_excel(
批量的处理的是对运行脚本的当前目录内所有EXECL表进行读取去重操作。
如需指定目录,下次在说了。
