RL 在金融中的应用
参见Modern Perspectivs on RL in Finance和RL in economics and finance 2021.
本来应该通过动态规划方法解这些问题.用动态规划解优化问题通常需要下述三个条件:
- 明确知道模型的状态转移概率
- 有足够的算力来求解DP
- Markov性质
RL,结合了DP,蒙特卡洛模拟,函数近似和机器学习.
RL在金融中主要有以下三个应用方向:
- 衍生品定价/对冲
- 投资组合/资产配置
- 做市
一. RL for Risk Management
通常而言,学术中对衍生品定价和对冲都是基于随机环境下的有模型决策(model-driven decision rules in a stochastic environment),常规对冲策略都会用到希腊值 Greeks,代表模型对不同参数风险定价的敏感程度.
这种方法在高维情况时通常缺少有效的数值模拟方法.
Deep Hedging
参考Deep Hedging, Buehler et al.
市场摩擦(market frictions):指金融资产在交易中存在的难度,如手续费(transaction costs)、买卖价差(bid/ask spread)、流动性约束(liquidity constraints)等.
本文中的对冲的对象是对冲掉一些衍生品的投资组合.
把 trading decision 建模成一个网络,特征不仅仅有价格,还有交易信号,新闻分析(news analytics),过去对冲决策等等.
算法是完全 model-free,不依赖对应市场的动力.我们只需确定下来市场的状态生成(scenario generator),损失函数,市场摩擦和交易行为(trading instruments).所以此方法 lends itself to a statistically driven market dynamics,我们不需要像传统方法那样计算单个衍生品的希腊值,应将建模的精力花在实现真实的市场动力和样本外表现.
建模:带市场摩擦的离散市场
考虑有限时域的离散金融市场 和交易时刻 . 固定一个有限概率空间 和一个概率测度 s.t. 对所有的 . 定义所有 上的实值随机变量 .
记 在 available 的新市场数据, including market costs and mid-prices of liquid instruments-typically quoted in auxiliary terms such as implied volatilities-news, balance sheet information, any trading signals, risk limits etc. 过程 生成域流 , i.e. 表示到 时刻所有可用的信息. 注意到每个 可测的随机变量可以写成 的函数.
市场有 个hedging instruments with mid-prices 取值于 -valued -adapted 随机过程 . 即可以用来做对冲的资产.
衍生品的投资组合即负债(liability)是一个 可测的随机变量 . 到期日 是所有衍生品种最大的那一个.此为想要对冲掉的东西.
即 用.
想要在 对冲掉 , 我们要用 -valued -adapted stochastic process with 来交易 . 表示智能体在 时刻对第 个资产的持有. 同样定义 .
记 是这样的交易策略的无约束集合. 但是每个 有其交易约束. 可能来自 liquidity, asset availability or trading restrictions. They are also used to restrict trading in a particular option prior to its availability. In the example above of an option which is listed in , the respective trading constraints would be until the point. 所以我们假定 受 约束,由一个连续 可测映射给出 , i.e.
对无约束策略 , 我们定义它在 的有约束投影 .记 为受约束的交易策略相应的非空集.
EXAMPLE 1 Assume that are a range of options and that computes the Black-Scholes Vega of each option using the various market parameters available at time . The overall Vega traded with is then A liquidity limit of a maximum tradable Vega of could then be implemented by the map:
对冲
交易是自融资的.不带交易费用的 时刻最终财富为 , 其中 当考虑交易费用时,在 时刻买入 的 股票a产生费用 . 策略总的交易费用为 回忆 .所以智能体总的花费变为