您当前的位置：首页 > IT编程 > python
\| C语言 \| Java \| VB \| VC \| python \| Android \| TensorFlow \| C++ \| oracle \| 学术与代码 \| cnn卷积神经网络 \| gnn \| 图像修复 \| Keras \| 数据集 \| Neo4j \| 自然语言处理 \| 深度学习 \| 医学CAD \| 医学影像 \| 超参数 \| pointnet \| pytorch \|

自学教程：Python实现读取HTML表格 pd.read_html()

51自学网 2022-07-22 18:47:16

python

这篇教程Python实现读取HTML表格&nbsp;pd.read_html()写得很实用，希望能帮到您。

Python读取HTML表格

数据部门提供的数据是xls格式的文件，但是执行读取xls文件的脚本报错。

xlrd报错：

xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'<html xm'

读取xlrd的脚本

data_lines = read_excel_file(self.file_path)def read_excel_file(file_path):    """    读取excel文件    """    import xlrd    print('[Info] excel file: {}'.format(file_path))    book = xlrd.open_workbook(file_path)    sheet = book.sheet_by_index(0)    data_lines = []    for row in range(0, sheet.nrows):        line_data = []        for column in range(0, sheet.ncols):            val = sheet.cell(row, column).value            line_data.append(val)        data_lines.append(line_data)    return data_lines  # 二维数组

原因是文件格式是HTML表格，参考python xlrd unsupported format, or corrupt file.

使用pandas的read_html读取文件，同时替换nan为空字符，数据格式保持一致。

def read_html_table(file_path):
Python和C语言利用栈分别实现进制转换
Python轻量级搜索工具Whoosh的使用教程

自学教程：Python实现读取HTML表格&nbsp;pd.read_html()

目录

Python读取HTML表格

自学教程：Python实现读取HTML表格 pd.read_html()