这篇教程Python实现读取HTML表格 pd.read_html()写得很实用,希望能帮到您。
Python读取HTML表格数据部门提供的数据是xls格式的文件,但是执行读取xls文件的脚本报错。 xlrd报错: xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'<html xm'
读取xlrd的脚本 data_lines = read_excel_file(self.file_path)def read_excel_file(file_path): """ 读取excel文件 """ import xlrd print('[Info] excel file: {}'.format(file_path)) book = xlrd.open_workbook(file_path) sheet = book.sheet_by_index(0) data_lines = [] for row in range(0, sheet.nrows): line_data = [] for column in range(0, sheet.ncols): val = sheet.cell(row, column).value line_data.append(val) data_lines.append(line_data) return data_lines # 二维数组 原因是文件格式是HTML表格,参考python xlrd unsupported format, or corrupt file. 使用pandas的read_html读取文件,同时替换nan为空字符,数据格式保持一致。 |