HiTSKT: A hierarchical transformer model for session-aware knowledge tracing

利用学生学习历史中的 KT 问题的基础会话信息

提出了一个基于分层变压器的模型，名为HiTSKT，用于对KT 问题的会话信息进行建模。通过会话感知的分层变压器编码器，该模型能够捕获学生在会话内和会话之间的知识状态变化。此外，知识状态检索编码器可以测量存储的知识对学生当前课程表现的影响。

通过习得和巩固建模组件中的幂律衰减尺度注意力机制来建模和捕获学生的会话遗忘行为。

‍

学习记录：对于学生 $i$ ，其学习记录由 $n$ 个历史会话和当前的第 $n+1$ 个会话组成，表示为 $\{sesi_1, sesi_2, ..., sesi_n, sesi_{n+1}\}$ $\{sesi_1, sesi_2, ..., sesi_n, sesi_{n+1}\}$ 。
会话定义：每个会话 $sesi_n$ 包含一系列 $t$ 次交互，表示为 $xi_n = \{xi_{n,1}, xi_{n,2}, ..., xi_{n,t}\}$ 。
交互组成：每次交互 $xi_{n,t}$ 由以下四个部分组成：
- $qi_{n,t}$ ：学生 $i$ 在会话 $n$ 的时间步 $t$ 回答的问题。
- $ki_{n,t}$ ：问题 $qi_{n,t}$ 所需的相应技能。
- $f_{i,n,t}$ ：直到时间 $t$ 为止，问题 $qi_{n,t}$ 出现的次数。
- $ai_{n,t}$ ：学生 $i$ 对第 $t$ 个问题的回答评分，其中 $ai_{n,t} \in \{1, 0\}$ 表示回答正确或错误。
学习历史：学生 $i$ 的过去学习历史包括 $n$ 个会话，即 $\{sesi_1, sesi_2, ..., sesi_n\}$ ，以及当前第 $n+1$ 个会话中的前 $t-1$ 次交互，即 $\{xi_{n+1,1}, xi_{n+1,2}, ..., xi_{n+1,t-1}\}$
知识追踪问题：基于学习历史和一个查询问题 $qi_{n+1,t}$ 在当前时间 $t$ ，知识追踪问题关注的是预测学生 $i$ 对查询问题的回答评分 $ai_{n+1,t}$ 。
会话时长定义：论文中定义会话的时长为10小时，这是基于人类活动研究的结果。两个会话之间的时间间隔应该超过会话时长，即如果下一次交互发生在10小时之后，则该交互属于新的会话。

‍

Knowledge Skills（知识技能） ：
图的顶部列出了不同的技能 $k_1, k_2, k_3, k_4$ ，这些技能是学生在学习过程中需要掌握的。

Practice Questions Correctness（练习题正确性）：
每个技能下方的勾（✓）和叉（✗）表示学生在练习这些技能相关的问题时的正确与否。

Sessions（会话）：
图中展示了三个会话（Session 1, Session 2, Current Session n+1），每个会话包含一系列的问题（ $q_{1,1}, q_{1,2}, q_{1,3}, ..., q_{1,t}$ 等）。

Session Details（会话详情）：
每个会话中的问题（如 $q_{1,1}, q_{2,1}, q_{n+1,1}$ 等）被展示出来，并且用勾和叉表示学生对这些问题的回答是否正确。

Current Session n+1（当前会话 n+1）：
在当前会话中，学生回答了一些问题，并且有一个问题（ $q_{n+1,t}$ ）的答案未知，用问号表示。

HiTSKT 任务的目标：基于学生在不同会话中的表现，预测他们在当前会话中对特定问题的回答。这涉及到理解学生的知识状态如何随着时间和不同会话而变化，以及如何利用这些信息来提高知识追踪的准确性。

会话感知分层转换器来进行采集和整合过程，包含两个部分：

交互编码器（Interaction Encoder） ：负责捕捉学生在单个会话中获得的知识，并将其转化为会话内知识表示向量。

会话编码器（Session Encoder） ：接收所有过去会话的会话内表示，并将它们整合成代表当前会话的会话间知识的向量。该过程通过一个强调最近会话会话内信息的遗忘机制来完成记忆巩固。

利用知识状态检索（KSR）编码器模块和学生响应预测模块进行检索和响应。

为了模拟学生在会话间的长期遗忘行为，设计并部署了一个幂律衰减注意力机制在会话编码器中，使其能够更加重视最近的会话。