最近在整理题库,将题库转换成EXECL表格后,再配合Python写的检索脚本可以很直观的得到自己想要的信息。唯一美中不足的是,表格内又重复题目,为了精简文件及浏览的直观性,使用Python写了一个EXECL相同行数据去重的脚本。

脚本如下:

import pandas as pd # 读取Excel文件 input_file = '需去重目录文件名.xlsx' df = pd.read_excel(input_file) # 删除重复行数据并保存到新文件 output_file = '去重后需要保存的目录文件名.xlsx' df.drop_duplicates(inplace=True) df.to_excel(output_file, index=False) print(f'处理完成,去重后的文件保存在{output_file}中')

貌似这个是单一文件的处理方式,延伸想了想,针对目录内的所有EXECL文件进行批量去重,脚本如下:

import pandas as pd import os # 获取当前目录下所有Excel文件 excel_files = [f for f in os.listdir() if f.endswith('.xlsx') or f.endswith('.xls')] # 对每个Excel文件进行去重操作 for f in excel_files: # 读取Excel文件到DataFrame df = pd.read_excel(f) # 进行去重操作 df = df.drop_duplicates() # 保存去重后的Excel文件 new_file_name = os.path.splitext(f)[0] + '_去重后.xlsx' df.to_excel(

批量的处理的是对运行脚本的当前目录内所有EXECL表进行读取去重操作。

如需指定目录,下次在说了。