下面的代码是通过东财的 api 的获取数据,然后对数据进行线性回归,求得不同时间段的线性回归数据,包括线性回归期望值、残差标准差、斜率、截距、相关系数、P 值、标准误差。

代码

import pandas as pd import requests import numpy as np import json from scipy import stats from datetime import datetime, timedelta # 通过东方财富api获取K线数据 def json_to_dfcf(secid, fields1, fields2, klt, fqt, beg, end, lmt): # 参数参考我的东方财富api文档 url = f'http://push2his.eastmoney.com/api/qt/stock/kline/get?&secid={secid}&fields1={fields1}&fields2={fields2}&klt={klt}&fqt={fqt}&beg={beg}&end={end}&lmt={lmt}' response = requests.get(url) data = response.json()['data']['klines'] # 获取json数据下的'data',再获取'data'下的'klines'数据 data = [x.split(',') for x in data] # 数据以',',将数据循环的放到pandas中 df = pd.DataFrame(data, columns=['close'],dtype=float) return df print(json_to_dfcf('0.000001','f1','f53',101,1,20230101,20230314,0)) json_to_dfcf('0.000001','f2','f53',101,1,20230101,20230314,0).to_csv('东方财富.csv') # 东方财富api获取指数、股票、场内基金的线性回归期望值和残差标准差等 def linear_regression_dfcf(symbol, years_list): # 参数分别为代码,种类和调取数据年份列表 df_list = [] for many_years in years_list: # 将调取年份列表放入循环 # 获取指定股票近多少年的收盘价数据 today = datetime.now().date() # 获取当前时间 start_date = (today - timedelta(days=365*many_years)).strftime('%Y%m%d') # 获取多少年之前的时间 end_date = today.strftime('%Y%m%d') # 对今天的时间设置取结束时间,总设定格式 y = json_to_dfcf(symbol,'f1','f53',101,1,start_date,end_date,0)["close"] # 调取自定义函数中的"close"列 x = np.arange(len(y)) slope, intercept, r_value, p_value, std_err = stats.linregress(x, y) expected_value = intercept + slope * len(y) # 计算期望值 residuals = y - (intercept + slope * x) # 残差 std_residuals = np.std(residuals) # 残差标准差 # 构建结果DataFrame index=[f"{many_years}year_expected_value", f"{many_years}year_std_residuals", f"{many_years}year_slope", f"{many_years}year_intercept", f"{many_years}year_r_value", f"{many_years}year_p_value", f"{many_years}year_std_err"] data = [expected_value, std_residuals, slope, intercept, r_value, p_value, std_err] # 上面数据分别表示线性回归期望值、残差标准差、斜率、截距、相关系数、P值、标准误差 result_df = pd.DataFrame(data=[data], index=[symbol], columns=index) df_list.append(result_df) result = pd.concat(df_list, axis=1) return result # 通过读取excel中的列“代码”(注意导入的是str,不是int),进行怎么,需要借助自定义函数dustom_functions(code, kind) def get_circulate_xslx_str(kind, file_index_code,sheet): # 参数为导入的excel表格和第几张表 codes = pd.read_excel(file_index_code, sheet_name=sheet, engine='openpyxl')['代码'].astype(str).tolist() # 读取csv文件,选择“代码”列,并将其转换为列表。int导入的是整数型 all_data = pd.DataFrame() for code in codes: ratios = dustom_functions(code,kind) # 假设有一个名为get_valuation_ratios的函数,返回指定股票的估值比率数据。 all_data = pd.concat([all_data, ratios]) return all_data # 调取自定义函数,进行循环获取数据 def dustom_functions(code, kind): if kind == 'api线性回归': return linear_regression_dfcf(code, [7,3,1]) print(linear_regression_dfcf('1.000300', [7,3,1])) print(get_circulate_xslx_str('api线性回归','测试.xlsx',0)) # 注意,需要更改测试中的代码,在东财api中需要加入市场,比如0.000001


代码说明

代码主要是对于 Python 中常用的数据处理、Web 开发、爬虫和机器学习等领域的应用进行了展示。具体包括:

  1. 使用 pandas、requests、numpy、json、scipy 等库对于数据进行处理和分析。
  2. 自定义函数 json_to_dfcf,通过东方财富 api 获取 K 线数据,并将数据放到 pandas 中。
  3. 自定义函数 linear_regression_dfcf,通过东方财富 api 获取指数、股票、场内基金的线性回归期望值和残差标准差等。
  4. 自定义函数 get_circulate_xslx_str,通过读取 excel 中的列“代码”,进行循环获取数据。
  5. 调用自定义函数 dustom_functions,进行循环获取数据。

其中,代码中的一些具体细节需要注意,比如:

  1. 在使用 selenium 包时,需要改用 Edge 浏览器的框架。
  2. 在调用自定义函数 get_circulate_xslx_str 时,需要注意导入的是 str,而不是 int 类型的数据。
  3. 在调用自定义函数 linear_regression_dfcf 时,需要将代码加入市场,比如 0.000001。