量化交易数据处理_Python期货数据清洗实践记录-编程阁

声明：本文为个人学习笔记，仅供技术交流，不构成任何投资建议。

fromtqsdkimportTqApi,TqAuth api=TqApi(auth=TqAuth("账户","密码"))# 获取历史K线klines=api.get_kline_serial("SHFE.rb2505",60,3000)# 获取历史Tickticks=api.get_tick_serial("SHFE.rb2505")print(f"K线数据条数:{len(klines)}")print(f"Tick数据条数:{len(ticks)}")

数据从合约上市就有，不用自己建库维护，对于研究历史策略很方便。

3. VnPy + 第三方数据源

VnPy本身不提供数据，需要自己对接数据源或购买第三方数据。

我的体验：自由度高但折腾多，适合有数据工程能力的团队。

四、Python数据清洗实战

下面分享几个常用的数据清洗方法，用pandas实现：

1. 缺失值处理

importpandasaspdimportnumpyasnp# 检测缺失值print(df.isnull().sum())# 方法1：删除缺失行（数据量大时可用）df_clean=df.dropna()# 方法2：前向填充（时间序列常用）df['close']=df['close'].fillna(method='ffill')# 方法3：线性插值df['close']=df['close'].interpolate(method='linear')

2. 异常值检测与处理

# 使用Z-score检测异常值defdetect_outliers_zscore(series,threshold=3):z_scores=np.abs((series-series.mean())/series.std())returnz_scores>threshold# 检测价格异常outliers=detect_outliers_zscore(df['close'])print(f"检测到{outliers.sum()}个异常值")# 方法1：删除异常值df_clean=df[~outliers]# 方法2：用前值替换df.loc[outliers,'close']=np.nan df['close']=df['close'].fillna(method='ffill')

3. 重复数据处理

# 检测重复duplicates=df.duplicated(subset=['datetime'],keep='first')print(f"重复数据:{duplicates.sum()}条")# 删除重复df_clean=df.drop_duplicates(subset=['datetime'],keep='first')

4. 时间戳规范化

# 统一时区df['datetime']=pd.to_datetime(df['datetime'])df['datetime']=df['datetime'].dt.tz_localize('Asia/Shanghai')# 检查时间递增is_sorted=df['datetime'].is_monotonic_increasingifnotis_sorted:df=df.sort_values('datetime').reset_index(drop=True)

5. 合约代码标准化

defnormalize_symbol(symbol):"""统一合约代码格式为 EXCHANGE.symbol"""# 处理各种格式symbol=symbol.upper().replace(' ','')if'.'insymbol:parts=symbol.split('.')iflen(parts[0])<=4:# SHFE.rb2505 格式returnsymbolelse:# rb2505.SHFE 格式returnf"{parts[1]}.{parts[0]}"else:# 推断交易所ifsymbol.startswith('RB')orsymbol.startswith('CU'):returnf"SHFE.{symbol.lower()}"# ... 其他交易所判断returnsymbol df['symbol']=df['symbol'].apply(normalize_symbol)

五、数据质量验证

清洗完成后，需要验证数据质量：

defvalidate_data(df):"""数据质量检查"""issues=[]# 1. 检查缺失值null_count=df.isnull().sum().sum()ifnull_count>0:issues.append(f"存在{null_count}个缺失值")# 2. 检查时间连续性ifnotdf['datetime'].is_monotonic_increasing:issues.append("时间戳不递增")# 3. 检查价格合理性if(df['close']<=0).any():issues.append("存在非正价格")# 4. 检查涨跌幅异常（单日超过20%）returns=df['close'].pct_change()if(abs(returns)>0.2).any():issues.append("存在涨跌幅超过20%的数据")ifissues:print("数据质量问题：")forissueinissues:print(f" -{issue}")else:print("数据质量检查通过")returnlen(issues)==0validate_data(df_clean)

六、不同工具的数据质量对比

用了这么多工具，对它们的数据质量有一些体会：

工具	数据完整度	数据质量	维护成本
自建CTP录制	看自己维护	需要自己清洗	高
TqSdk	高（有历史数据）	已做基础清洗	低
VnPy	取决于数据源	取决于数据源	中
文华财经	高	高	低