如何将数据分成多列_如何将数据分成训练集和测试集?

本例展示如何将数据分成训练集和测试集。我们将回测一个配对交易策略，在训练集上优化参数，在测试集上观察效果。

如何将数据分成训练集和测试集?

GLD代表黄金的现货价格，GDX是一揽子采金企业股票，两者的价格是高度相关的，故GLD和GDX可用于做配对交易。不过我要到第7章才会讲训练集上的协整分析，结果表明,GLD多头和GDX空头所形成的差价呈均值回归。通过训练集上的回归分析可得出GLD和GDX之间的对冲比率，并设定配对交易策略进出市场的阀值。从后面可以看到，阀值在训练集上的优化会改变策略在测试集上的业绩。(程序文件可从epchan. com/book/example3-6.m下载，数据文件为GLD. xls和GLD.xls。)程序使用滞后命令，将时间序列滞后一期，这在epchan.com/book中也能找到。还会使用“普通最小二乘法(OLS)”命令进行线性回归，在spatial-econometrics.com上可免费打包下载。

使用MATLAB

%清除工作空间已有变量

clear；

%将“GLD.xls”读入MATLAB

[num，txt]=xlsread("GLD")；

%第一列(从第二行开始)是交易日，格式为mm/dd/yyyy

tdayl=txt(2:end，1)；

%将时间格式转化为yyyymmdd

tdayl=…

datestr(datenum (tdayl，"mm/dd/yyyy")，"yyyymmdd")；

%将数据字符串转化为单元型变量，再转化为数值型变量

tdayl =str2double(cellstr(tdayl))；

%最后一列是调整后收盘价

adjclsl=num(:，end)；

%读入“GDX. x1s”

[num，txt]=xlsread("GDX")；

%第一列(从第二行开始)是交易日，格式为mm/dd/yyyy

tday2=txt(2:end，1)；

%将时间格式转化为yyyymmdd

tday2=…

datestr(datenum (tday2，"mm/dd/yyyy"),"yyyymmdd")；

%将数据字符串转化为单元型变量，再转化为数位型变量

tday2=str2double(cellstr(tday2))；

%最后一列是调整后收盘价

adjcls2=num(:，end)；

%找到两组数据的交集并按升序排列

[tday，idxl，idx2]=intersect(tdayl，tday2)；

cll=adjclsl(idxl)；

c12=adjcls2(idx2)；

trainset=1:252；%定义训练集一标

%定义测评集下标

testset = trainset(end)+1:length(tday)；

%用回归函数计葬得到对冲比率

results=ols(cll (trainset)，c12(trainset))；

hedgeRatio= results. beta；

%差价=GLD一对冲比率*GDX

spread=cll一hedgeRatio*c12；

plot(spread(trainset))；

figure；

plot(spread(testset))；

figure；

%训练集平均差价

spreadMean= mean(spread(trainset ))；

%训练集差价标准差

spreadStd =std(spread(trainset))；

%差价标准化(用z-scores方法)

zscore = (spread一spreadMean). /spreadStd；

%在组合价值向下跌破2倍标准差时，购买此差价组合

longs=zscore<=一2；

%当组合价值上升超过2倍标准差时，做空该差价组合

shorts=zscore>=2；

%当组合价值回到1倍标准差以内时，清仓

exits=abs(zscore) <=1；

写初始化头寸数组

positions=NaN(length Way)，2)；

%多头入市

positions(shorts，:)= repmat[一1 1]，[length(find(shorts))1])；

%空头入市

positions(longs,:)=repmat([1一1]，[length(find(longs))1])；

%清仓

positions(exits，:)=zeros(length(find(exits))，2)；

%确保继续持仓，除非出现清仓信号

%positions= fillMissingData(positions)；

cl=[cllc12]；%合并两个价格序列

dailyret=(cl一lagl(cl))./lagl(cl)；

pnl=sum(lagl(positions).*dailyret，2)；

%训练集的夏普比应该足2.3

sharpeTrainset=…

sgrt(252)*mean(pnl(trainset(2:end)))./std(pnl(trainset(2:end)))

%测评集的夏普比应该是1.5

sharpeTestset =sgrt(252)*mean(pnl(testset))./std(pnl(testset))

plot(cumsum(pnl(testset )))；

sharpeTestset = sqrt(252)*mean(pnl(testset))./std(pnl(testset))

plot(cumsum(pnl(testset)))；

%保存头寸文件以便检查数据先窥偏差

save example3-6-positions positions；

文件lagl. m:

function y=lagl(x)

%y=lag(x)

if(isnumeric(x))

%第一个元素填充为NaN

y=[NaN(1,size(x,2))；x(1:end一1，:)]；elseif(ischar(x))

%第一个元素填充为”

Y=[repmat(””，[1 size(x,2)])；x(1:end一1，:)]；else error("Can only be numeric or char array’)；

End

此配对交易策略在训练集和测试集上的夏普比率都很高，因此可认为它是无数据迁就偏差的。但也许还有进一步改进的空间。若把建仓阀值改为1倍标准差、清仓阀值改为0.5倍标准差，训练集上的夏普比率会上升到2.9 ,测试集上的夏普比率会上升到2.1。显然，这一阀值集更佳。

不过，在训练集上进行参数优化也许会降低测试集上的业绩。这种情况下，应选择使得训练集和测试集上的业绩结果都较好(也许不是最好)的参数集。

我没有将交易成本考虑在内(下一节会讨论交易成本)。读者可以自己做练习。由于这一策略不是频繁交易，因此，交易成本对所得的夏普比率影响并不大。

为观察这一策略是如何工作的，读者可参见所显示的差价。你将看到差价走势呈现出很明显的均值回归。因此，不断地低买高卖是很管用的。

最后，还要检测任何可能的数据前视偏差。在上面的MATLAB代码“cl2=adjcls2 (idx2)；”之后，添加以下代码。

%将最近的交易日数据移除掉

cutoff=60；%移除最近60天的数据

tday(end一cutoff+l:end，:)=[]；

cll(end一cutoff +l:end，:)=[]；

c12(end-cutoff+1:end，:)=[]；

将以下代码放在上面MATLAB程序的结尾，取代“save example3_6_positions positions”。

%检测数据先窥偏差的第二步

oldoutput=load (’example3-6-positions")；

oldoutput. positions(end一cutoff+1:end，:)=[]；

if (any( positions～=oldoutput. positions))

fprintf(1."Program has look-forward-bias!\n")

End

将新的代码保存为“example3 - 6 - 1. m”并运行，你会发现“Program has look-forward-bias”语句不会被打印出来，这说明算法通过测试了。

上一篇：[实证经济学]实证案例：牛熊线择时模型下一篇：[支持向量机原理]如何使用支持向量机策略模型，预测股市走势？

[散户之家]散户制胜操作策略探索

散户制胜操作策略探索上篇:迷惑我必须先承认，对于当前的行情，我有些迷惑。之所以迷惑，是因为我看不清局势。如果像一些专家说的，养老基金入市、RQFII增额、蓝筹股估值低、分红体制改革

关键词：散户制胜的操作策略散户与庄家的博弈探究

2019-07-30

加盟模式怎么操作|顶部的操作模式及常见的K线顶部形态

顶部的操作模式买股票很重要，卖股票也同样重要。买股票的时候重在选股，卖股票的时候重在操作。买股票的时候可以掌握较多的主动权，卖股票的时候荃本上没有多少主动权。如何抓住有限的主动权，

关键词：八种常见顶部反转k线形态 k线常见形态及操作策略三星顶部k线形态实战解读常见k线与图形形态分析

2019-07-14

震荡行情如何操作_震荡行情的操作模式及其有效的应对方法

震荡行情的操作模式很多朋友说，震荡行情很难操作。的确如此。震荡分化行情本来就难把握，何祝我们面临的行情有点奇怪。有的人说经济已经见底，有的人说现在是熊市中的大反弹，有的人说现在已经

关键词：应对震荡行情最好的办法高位震荡行情的操作策略

2019-07-14

【番125长线】长线秘岌小结

长线秘岌小结长线投资之所以区别于短线投机与中线波段，不仅仅是时间长短的区别，更是操作策略的区别。大家不难发现，在短线交易模式和中线交易模式的篇章之中，我们几乎全部是用技术面来作为分

关键词：初中基本时态小结

2019-07-14

【股市投资心经】在股市投资中要会“狠”

“狠”这个词大家应该很容易理解，在交易中要分为两种狠。一种就是止损要狠，投资者发现自己错误的时候，不要思考未来是否还会上涨，只要到止损位一定要敢下狠手止损出局。另一种就是发现自己对

关键词：关于股市中的投资策略中国股市投资平台招商中国股市投资基本知识中国股市价值投资指南

2019-06-06

[一个普通猎人的工作日记]一个普通散户的炒股原则

股海沉浮16年，还是有很多经验教训。要想在股市生存下去，甚至是获利，以下原则一定要遵守。一个普通散户的炒股原则第一、只做蓝筹，不碰垃圾不是因为去年到今年，一直是蓝筹行情，我才这么说

关键词：股票散户炒股13条原则一普通散户的炒股原则普通散户的炒股原则是什么一个散户的炒股原则

2019-05-21

实例解析 pdf_实例解析掌握解套技巧的止损作用及方法

案例：掌握解套技巧降低了小江的损失小江投资股票也有些年头了，说起这几年的炒股经历，可谓是喜忧参半。初入股市时，小江的胆子比较小，买股也十分谨慎，喜欢见好就收，总是看着股价有所上涨，

关键词：止损解套策略实例解套解套app 百度识图

2019-05-17

[连体形]箱体形态的操作策略及主要特征

掌握箱体形态的操作策略长方矩形的理想买卖点是箱体突破和回抽确认的时候。在平时，投资者也可以在接近箱体上下轨时利用差价进行操作，但是，此时需要注意止损点的设立。在箱体形态的具体操作中

关键词：角形形态的特点及操作策略整理技术图形箱体整理

2019-05-15

[股市止损37定律]止损是股市投资中关键理念

止损既是一种理念，也是一个计划，更是一项操作。止损理念是指投资者必须从战略高度认识止损在股市投资中的重要意义，因为在高风险的股市中，投资者首先要生存下去，才谈得上进一步的发展，止损

关键词：股市投资理念股市投资理念格言什么是投资理念股票投资理念及策略

2019-05-15

【亚洲四大热点问题】热点股的四大操作策略及三个投资要点

热点股的四大操作策略寻找热点股、买入热点股，及时卖出获利，整个操作过程都要讲究一定的方式方法，投资者要想从投资热点股中获利，就必须要注意操作策略的及时、得当。首先，要想及时发现热点

关键词：四大热点三大招数股票投资策略股票投资技巧与策略证券投资操作策略与技巧

2019-05-14

股民股票网

如何将数据分成多列_如何将数据分成训练集和测试集?

推荐内容

[散户之家]散户制胜操作策略探索

加盟模式怎么操作|顶部的操作模式及常见的K线顶部形态

震荡行情如何操作_震荡行情的操作模式及其有效的应对方法

【番125长线】长线秘岌小结

【股市投资心经】在股市投资中要会“狠”

[一个普通猎人的工作日记]一个普通散户的炒股原则

实例解析 pdf_实例解析掌握解套技巧的止损作用及方法

[连体形]箱体形态的操作策略及主要特征

[股市止损37定律]止损是股市投资中关键理念

【亚洲四大热点问题】热点股的四大操作策略及三个投资要点

推荐文章

热门阅读

推荐文章

热门关键词

栏目导航

友情链接