获取收盘数据，处理为线性回归数据，Python库让你轻松搞定

下面的代码是通过东财的 api 的获取数据，然后对数据进行线性回归，求得不同时间段的线性回归数据，包括线性回归期望值、残差标准差、斜率、截距、相关系数、P 值、标准误差。

代码

import pandas as pd import requests import numpy as np import json from scipy import stats from datetime import datetime, timedelta # 通过东方财富api获取K线数据 def json_to_dfcf(secid, fields1, fields2, klt, fqt, beg, end, lmt): # 参数参考我的东方财富api文档 url = f'http://push2his.eastmoney.com/api/qt/stock/kline/get?&secid={secid}&fields1={fields1}&fields2={fields2}&klt={klt}&fqt={fqt}&beg={beg}&end={end}&lmt={lmt}' response = requests.get(url) data = response.json()['data']['klines'] # 获取json数据下的'data'，再获取'data'下的'klines'数据 data = [x.split(',') for x in data] # 数据以','，将数据循环的放到pandas中 df = pd.DataFrame(data, columns=['close'],dtype=float) return df print(json_to_dfcf('0.000001','f1','f53',101,1,20230101,20230314,0)) json_to_dfcf('0.000001','f2','f53',101,1,20230101,20230314,0).to_csv('东方财富.csv') # 东方财富api获取指数、股票、场内基金的线性回归期望值和残差标准差等 def linear_regression_dfcf(symbol, years_list): # 参数分别为代码，种类和调取数据年份列表 df_list = [] for many_years in years_list: # 将调取年份列表放入循环 # 获取指定股票近多少年的收盘价数据 today = datetime.now().date() # 获取当前时间 start_date = (today - timedelta(days=365*many_years)).strftime('%Y%m%d') # 获取多少年之前的时间 end_date = today.strftime('%Y%m%d') # 对今天的时间设置取结束时间，总设定格式 y = json_to_dfcf(symbol,'f1','f53',101,1,start_date,end_date,0)["close"] # 调取自定义函数中的"close"列 x = np.arange(len(y)) slope, intercept, r_value, p_value, std_err = stats.linregress(x, y) expected_value = intercept + slope * len(y) # 计算期望值 residuals = y - (intercept + slope * x) # 残差 std_residuals = np.std(residuals) # 残差标准差 # 构建结果DataFrame index=[f"{many_years}year_expected_value", f"{many_years}year_std_residuals", f"{many_years}year_slope", f"{many_years}year_intercept", f"{many_years}year_r_value", f"{many_years}year_p_value", f"{many_years}year_std_err"] data = [expected_value, std_residuals, slope, intercept, r_value, p_value, std_err] # 上面数据分别表示线性回归期望值、残差标准差、斜率、截距、相关系数、P值、标准误差 result_df = pd.DataFrame(data=[data], index=[symbol], columns=index) df_list.append(result_df) result = pd.concat(df_list, axis=1) return result # 通过读取excel中的列“代码”(注意导入的是str,不是int）,进行怎么，需要借助自定义函数dustom_functions(code, kind) def get_circulate_xslx_str(kind, file_index_code,sheet): # 参数为导入的excel表格和第几张表 codes = pd.read_excel(file_index_code, sheet_name=sheet, engine='openpyxl')['代码'].astype(str).tolist() # 读取csv文件，选择“代码”列，并将其转换为列表。int导入的是整数型 all_data = pd.DataFrame() for code in codes: ratios = dustom_functions(code,kind) # 假设有一个名为get_valuation_ratios的函数，返回指定股票的估值比率数据。 all_data = pd.concat([all_data, ratios]) return all_data # 调取自定义函数，进行循环获取数据 def dustom_functions(code, kind): if kind == 'api线性回归': return linear_regression_dfcf(code, [7,3,1]) print(linear_regression_dfcf('1.000300', [7,3,1])) print(get_circulate_xslx_str('api线性回归','测试.xlsx',0)) # 注意，需要更改测试中的代码，在东财api中需要加入市场，比如0.000001