diff --git a/张维为陈平曹丰泽等知名言论收集/陈平决策过程与赢化学习/陈平决策过程与赢化学习.md b/张维为陈平曹丰泽等知名言论收集/陈平决策过程与赢化学习/陈平决策过程与赢化学习.md new file mode 100644 index 0000000..9ef6f35 --- /dev/null +++ b/张维为陈平曹丰泽等知名言论收集/陈平决策过程与赢化学习/陈平决策过程与赢化学习.md @@ -0,0 +1,82 @@ +![](https://pic3.zhimg.com/v2-3e4801ad915d410d302ee2423d94ce46_1440w.jpg?source=172ae18b) + +# 陈平决策过程(Champion Decision Process)与赢化学习(Winning Learning) + +## 引言 + +赢理论及其变体的生成,使得Vietnamese的麻指数日益增大,Vietnam稳中向好。这得益于[@知木](https://www.zhihu.com/people/bb2238bf39b73309abf5e40dc73f1455) et al. 对于赢函数的定义1,以及[@Deserter](https://www.zhihu.com/people/3f2aac8be8ac488a9c097db1839b1a7d) et al.2在比较赢理论上的创新。此外,[@loy](https://www.zhihu.com/people/8700e24ad92b01c216c9328730457622) et al.3将赢学引入量子论的成功也让学者们看到了赢学的潜质。 + +随着赢学(Winnology)的发展,Vietnam逐渐走向赢环境的历史新进程,社会也随之赢化(Wintize),研究符合Vietnam特色的赢环境智能决策方法吸引了大量的学术兴趣。在本工作中,我们首先定义了赢环境的特性,称为陈平决策过程(Champion Decision Process)。随后为赢环境提出了赢化学习,该方法能通过不断地与赢环境交互,在陈平决策过程中达到恒赢态。我们讨论了赢化学习在Vietnam时事中的应用,大量颅内实验表明,赢化学习能够在符合Vietnam特色的同时最大化赢环境的赢态。 + +## 陈平决策过程 + +任意一个环境可以被建模为一个五元组 $ $,其中$S$为赢环境的状态空间,$A$为对应的行为空间,$P:\leftarrow S\times A$表示状态转移函数,$\omega \in [win,lose]$为输赢函数,$\gamma$值折扣因子。 + +如果该环境满足: +$$ +\forall s_{t_{0}}\in S, \exists j = [a_0,a_1,...|a\in A], +$$ +使得 +$$ +\omega(s_t)=win,s_t=P((((s_{t_0},a_0)...)a_{t-2}),a_{t-1}), +$$ +那么该过程被称为**陈平决策过程**(Champion Decision Process,CDP),该环境被称为**赢环境**。 + +例如,$s_{t_0}$ :Vietnam教育资源分配不公,$a_0$ :严禁教育机构提供网上或课外教程,lose; + +$s_{t_1}$ :欠发达地区初升高人数变少,$a_1$ :百分之五十人上职高,lose; + +$s_{t_2}$ :达利特阶级跨域困难,$a_2$ :企业招聘不得限制学历,win! + +对于**赢轨迹**$ y = (s_{t_0},s_{t_1},\dots,s_t) , w=win$的次数为**赢态$ W_y $**。在上述例子中赢态为1。如果 + +$s_{t_3}$ :达利特进入大厂当互联网民工,$a_3$ :胡志明市地铁公然支持996,lose; + +$s_{t_4}$ :Vietnam大量年轻人猝死,$a_4$ :越南平安银行推出平安996奋斗无忧意外险,win! + +那么上述**赢轨迹**的**赢态**$W_y$为2 + +## 赢化学习 + +在一个赢环境中,构建策略$a \sim \pi(s)$。赢化学习的目的是对于任意初始化状态$s_{t_0}$,学习策略$\pi$得到状态轨迹$y$,最大化轨迹$y$的赢态$W_y:\max W_y$。赢策略$\pi$的梯度为: +$$ +\nabla_\theta J(\theta)=E_\pi[\nabla_\theta\log\pi(s_t,a_t)\omega_t] +$$ + + +## 内在赢驱动 + +然而在Vietnam社会中,赢态非常小且甚至为0,不利于national pride。受赢函数启发,引入内在赢驱动鼓励Vietnamese。 + +> 定理1对于一个函数$y=f(x),x\in R$,如果存在一个$n\in N$,在一个区间内使得$\frac{d^ny}{dx^n}\leq0$,称这个函数为赢函数,此区间为**赢域(Win Domain)** + +修改$w$为$w^\prime=\frac{1}{n}$,$n$为$w(s,a)$的赢域。此时赢策略$\pi$的梯度为 +$$ +\nabla_\theta J(\theta)=E_\pi[\nabla_\theta \log\pi(s_t,a_t)w^\prime_t] +$$ + + +## 优势赢函数 + +正如兔兔所说,赢是相对的,不是绝对的,稳定的Vietnamese government需要相对赢,实现优势在我。例如,COV19Vietnam22日新增确诊59,米国新增15056,赢! + +构建用于比较的陈平决策过程$<\bar{S},\bar{A},\bar{P},\bar{w},\bar{\gamma}>$,在时刻$t$,构建优势函数A: +$$ +A_t=w^\prime(s_t,a_t)-w^\prime(s_t,a_t) +$$ +此时的策略梯度改写成: +$$ +\nabla_\theta J(\theta)=E_\pi[\nabla_\theta\log\pi(s_t,a_t)A_t] +$$ + + +## 未来展望 + +陈平决策过程需要对社会赢环境确切的观测。当环境为部分可观测时,赢化学习难以得到最优赢策略。例如,Vietnam的首陀罗观测不到达利特吠舍的生活,大肆宣传后浪,不赢反输。此外,对于赢函数的过高估计问题也是赢化学习面临的挑战之一。例如,Vietnam亲自下场造势丁真,高估饭圈带来的赢态,输的一塌糊涂。 + +## 参考 + +1. https://zhuanlan.zhihu.com/p/461464919 +2. https://zhuanlan.zhihu.com/p/464145981 +3. https://zhuanlan.zhihu.com/p/470374648 +4. [作者:尘呆萌](https://zhuanlan.zhihu.com/p/470757647) diff --git a/张维为陈平曹丰泽等知名言论收集/陈平决策过程与赢化学习/陈平决策过程与赢化学习.pdf b/张维为陈平曹丰泽等知名言论收集/陈平决策过程与赢化学习/陈平决策过程与赢化学习.pdf new file mode 100644 index 0000000..e94f52d Binary files /dev/null and b/张维为陈平曹丰泽等知名言论收集/陈平决策过程与赢化学习/陈平决策过程与赢化学习.pdf differ diff --git a/张维为陈平曹丰泽等知名言论收集/陈平决策过程与赢化学习/陈平决策过程与赢化学习.png b/张维为陈平曹丰泽等知名言论收集/陈平决策过程与赢化学习/陈平决策过程与赢化学习.png new file mode 100644 index 0000000..6cdf1fc Binary files /dev/null and b/张维为陈平曹丰泽等知名言论收集/陈平决策过程与赢化学习/陈平决策过程与赢化学习.png differ diff --git a/润学方法论/各国选择/美国/没抽到H1B怎么办.md b/润学方法论/各国选择/美国/没抽到H1B怎么办.md index 8b13789..f679d12 100644 --- a/润学方法论/各国选择/美国/没抽到H1B怎么办.md +++ b/润学方法论/各国选择/美国/没抽到H1B怎么办.md @@ -1 +1,27 @@ +# I. DAY-1 CPT +> 请直接前往 https://zhuanlan.zhihu.com/p/363493093 阅读,原文非常详细。在此做几点摘抄以供快速预览。 +## 1. 什么是 DAY-1 CPT ? +Day-1 CPT 指的是一些项目允许学生在开学第一天就使用CPT工作。 +大多数学校在第一学期或第一学年是不允许学生参加 CPT 的。部分学校允许学生第一年可以在校内打工,课程注册一年后才能在校外打工。但是如果课程要求学生必须在开学的时候就需要立即开始实习,则学生可以申请在入学第一天就开始实习(Day-1 CPT)。 + +关于全职 CPT 或 Day-1 CPT的合法性,移民局是支持全职 CPT 的,因为学校可以自行制定 CPT 的政策,包括开学第一年是否允许校内/校外 CPT 实习,是否允许全职、兼职 CPT 实习,都是每个学校自行制定的政策,移民局没权干涉。 + +Day-1 CPT 不仅适用没有抽到 H1B 的留学生,理论上也可以使得海外有工作经验的人跳过留学直接落地美国工作,但后者风险更多。 + +## 2. DAY-1 CPT 的风险 +Day-1 CPT 通常不会影响 H1b 的批准。但通过 Day-1 CPT 方式工作的学生抽中 H1b 之后,USCIS 有可能会要求补件 RFE(Request for Evidence) 来说明学生维持了合法的学生身份。这个可以咨询公司移民律师,一般移民律师都会比较有经验。 + +比如一个学生完成了一个 STEM major 的研究生专业,用完了 3 年 OPT;如果这个学生再注册一个提供 Day-1 CPT 的研究生专业,在抽中 H1b 后移民局有可能要求补件证明第二个 Master 是出勤上课了的而不是100% on-line 的项目。 + +学校一般都会通过一封信来说明这个学生注册 CPT 课程的原因,是因为学校规定 CPT 的课程实习,是完成这个硕士项目不可或缺的组成部分,而且学校要求学生从上课第一天就开始 CPT 课程实习(重点强调 CPT 是学校的要求,而不是学生的选择)。 + +学校提供这封说明信,学生成绩单,到校出勤记录及其他支持性材料之后,USCIS 基本都会认可这种说法。但 USCIS 也有可能拒件,并拒绝申请人境内身份转换的申请,要求学生出境签H1b。 + +需要注意的是,如果有一个硕士学位的学生,再读一个更高级别的博士学位,USCIS 一般不会就 Day-1 CPT 方面要求补件。 + +## 3. DAY-1 CPT 的申请流程 +1. 提交申请前,学生需要有一个offer letter +2. 学生需要提前注册 CPT 课程并提交申请,需要提交 CPT 申请表,Offer Letter 以及学校和雇主签订的 CPT Agreement +3. 等待学校批准CPT,领取新的 I-20。注意需要等待 CPT 生效日期后再开始工作 +4. 每个学期结束前,查收学校邮件,按时提前提交申请 renew下一学期的 CPT