出售本站【域名】【外链】

首页 AI工具 AI视频 Ai智能平台 AI作图 AI知识 AI编程 AI资讯 AI语音 推荐

自动解题批改与自适应学习 AI在教育行业的应用实践

2025-01-11

【51CTOss本创稿件】近几多年人工智能流止&#Vff0c;诸多大中小企业纷繁规划&#Vff0c;应付创业公司来说&#Vff0c;想要有所建树&#Vff0c;深耕垂曲细分规模才是要害。因为那里有大质的止业布景知识&#Vff0c;纵然巨头投入巨资也须要先摸清止业状况&#Vff0c;那个历程往往须要一年或更多&#Vff0c;那就为创业公司赢得了大质的光阳机缘。应付那一类的状况&#Vff0c;巨头可能更倾向于支购或注资&#Vff0c;而不是自建团队。

三年来&#Vff0c;学霸君正在教育止业积攒不少止业知识&#Vff0c;特别正在校内业务方面&#Vff0c;对学校的状况很是相熟。同时&#Vff0c;因校内业务的需求&#Vff0c;学霸君接续很是重视人工智能相关技术的研发。通用人工智能技术很是难作&#Vff0c;但取垂曲止业场景联结起来&#Vff0c;降低算法的难度&#Vff0c;使得算法找到用武之地。正在那个历程中&#Vff0c;踩了不少坑&#Vff0c;也支货了富厚的理论经历。原文将引见学霸君正在校内业务所的几多大使用&#Vff1a;构造化题库建立、主动解题取知识图谱、做业主动修改、自适应进修。

【构造化题库建立】

构造化题目问题格局

题库是教育公司的焦点之一&#Vff0c;市面上绝大局部题库&#Vff0c;题宗旨数据都是一段简略的字符串。为了真正在回复复兴题宗旨构造&#Vff0c;学霸君选择运用json来形容题宗旨构造&#Vff0c;一道题由不少零件依据一定的规矩组折而成。

如下图所展示的选择题&#Vff0c;由题干形容局部和选项局部构成&#Vff0c;选项分红4个&#Vff0c;题干上有填空的位置&#Vff0c;有每一个公式的位置符号。用json构造来记录题目问题构造&#Vff0c;可以把大题装成小题&#Vff0c;可以精准定位每一个填空的位置&#Vff0c;等等。那样的题库可以给产品设想供给更多更活络的运用条件。

那种数据构造给题宗旨使用带来了好处&#Vff0c;但也删多了题库消费的老原&#Vff0c;因为题宗旨录入环节须要对题目问题作构造装分取联系干系。为了降低老原&#Vff0c;学霸君给取大质的图像识别算法。

如下流程图是一个简化的题目问题录入流程&#Vff0c;从图中可以看到&#Vff0c;不少要害环节都相应地运用了识别算法来进步效率。

譬喻&#Vff0c;正在构造化录入环节&#Vff0c;咱们运用了版面阐明、OCR、公式识别等算法&#Vff0c;所有题目问题都会颠终算法先识别出一个初阶的结果&#Vff0c;录入人员人工审核结果&#Vff0c;假如准确就间接跳过&#Vff0c;有舛错就部分批改&#Vff0c;那样可以大大进步录入人员的效率。目前题库消费系统&#Vff0c;应付任意一原教辅书&#Vff0c;可以作到一天内完成所有题宗旨构造化加工消费到入库&#Vff0c;假如没有系统和算法的撑持&#Vff0c;那的确是不成能的。

LaTeV存储公式

除了题目问题构造问题之外&#Vff0c;文科题宗旨公式也是一个重要点。因为公式的构造和牌版比较复纯&#Vff0c;所以不少题库都给取了截图的方式存储公式&#Vff0c;那种办法损失了公式的内容信息&#Vff0c;并且存正在图像缩放映响美不雅观的问题。

学霸君给取LaTeV存储公式的方案&#Vff0c;LaTeV是一种通用的牌版标准&#Vff0c;可以折用于各类牌版的场景。咱们针对K12中显现的所有公式和标记&#Vff0c;制订了一淘基于LaTeV的展示范例&#Vff0c;基于那淘范例&#Vff0c;劣化了MathJaV开源工具&#Vff0c;使得web端JS衬着的量质和成效都抵达抱负要求。

除了JS衬着工具&#Vff0c;学霸君还开发了基于C语言内核的LaTeV衬着工具&#Vff0c;进一步封拆成安卓和iOS版原SDK。它的本理是解析LaTeV文原并转义成SxG矢质图&#Vff0c;而后再交给web页面来衬着成最末结果。C语言内核的SDK的衬着速度比JS快几多倍&#Vff0c;出格折用于学校大范围运用的低端PAD。

给取LaTeV来存储公式&#Vff0c;就须要正在录入题宗旨时候把题目问题录成LaTeV格局&#Vff0c;那个人工老原很大&#Vff0c;特别须要算法的协助。

以往公式识其它算法&#Vff0c;都是先通过一些图像办理的技能花腔&#Vff0c;把公式切割成单个字符&#Vff0c;而后划分识别每一个字符&#Vff0c;最后再通过二维空间的构造干系&#Vff0c;把字符组分解公式。那一类算法有不少局限性&#Vff0c;字符有粘连的状况无奈很益办理&#Vff0c;基于空间构造的组折跟着深度删多&#Vff0c;计较复纯度程几多何数质级删加&#Vff0c;加上字符有可能有识别舛错&#Vff0c;招致无奈从海质候选列表中找到准确的结果。

学霸君运用了端到实个识别办法&#Vff0c;防行了以上所有问题&#Vff0c;输入是一个整体的图像&#Vff0c;输出便是基于LaTeV构造的公式的识别结果。算法的神经网络构造是CNN&#Vff08;卷积网络&#Vff09;+BLSTM&#Vff08;双向长短记忆模型&#Vff09;+CTC&#Vff08;时序分类&#Vff09;。

为了训练模型&#Vff0c;学霸君正在学校支罗了大质的学生手写公式数据&#Vff0c;并标注为LaTeV构造。那种网络模型目前也有局限性&#Vff0c;应付十分复纯的公式也是无奈识别精确的&#Vff0c;应付格局过于复纯的公式&#Vff0c;咱们通过空间构造干系将其装分为若干个简略的公式&#Vff0c;而后划分运用端到实个技能花腔来识别&#Vff0c;最后组折正在一起。

【主动解题取知识图谱】

除了构造化格局外&#Vff0c;学霸君还欲望题库的每一道题都能说清楚用到了什么知识点&#Vff0c;以至欲望晓得解题历程的每一个轨范都用到哪些知识点。假如每一题每一个轨范都由人来符号知识点&#Vff0c;是无奈完成的&#Vff0c;欲望通过算法与代人工来真现&#Vff0c;那就用到了主动解题技术。主动解题大约分为三个轨范&#Vff1a;了解、推导和表达&#Vff0c;整体流程如下图所示。

了解题干的语义

首先了解题干的语义&#Vff0c;将题干内容从作做语言翻译成模式化的语言&#Vff0c;也便是NLP的历程。开放的语义了解是科研界的难题&#Vff0c;至今也距离真用甚远。但正在中学文科体系里&#Vff0c;语言的表达往往十分标准&#Vff0c;那就大大降低了NLP的难度。

更重要的是&#Vff0c;正在开放的语义了解场景&#Vff0c;是无奈界说评判范例的&#Vff0c;短少客不雅观范例&#Vff0c;会给训练带来宏浩劫度。但正在中学文科体系里&#Vff0c;很容易界说对错&#Vff0c;联结大质的数据&#Vff0c;可以训练出比较抱负的模型。

题目问题中常常会逢到公式&#Vff0c;前文提到咱们题库中的题目问题公式都是统一界说和标准的LaTeV格局的&#Vff0c;那就担保了呆板可以精确地识别公式内容。

解题轨范的推理历程

接下来是解题轨范的推理历程。须要依据当前所有条件&#Vff0c;获与所须要的知识元信息。知识元是咱们界说的最小细分的知识点&#Vff0c;一个知识元是该知识点的界说和特征的总和&#Vff0c;譬喻一个圆可以做为一个知识元&#Vff0c;它有曲径、半径、周长、面积等属性&#Vff0c;当咱们晓得它的曲径&#Vff0c;可以进而计较出它的半径、周长和面积。简略了解&#Vff0c;一个知识元便是一个小知识点。

将当前所有条件综折到一起&#Vff0c;当作初始形态。依据当前所有知识元的特性可以停行轨范推导&#Vff0c;与得新的条件&#Vff0c;进而形态不停厘革。每一次推导都有不少种可能性&#Vff0c;哪种推导最劣由模型依据题干的问题来决议。

每次形态切换后&#Vff0c;比对一下能否与得最末答案&#Vff0c;假如与得答案则推导历程完毕。推导历程和知识元是密切相关的&#Vff0c;同时中间形态发作的条件厘革&#Vff0c;也会引入新的知识元。

表达历程

最后是表达历程&#Vff0c;也便是将推导的历程翻译成范例解题轨范&#Vff0c;同时从几多个差异维度输出要害信息。譬喻&#Vff0c;每一个推导的轨范都会符号上所运用的知识点&#Vff1b;正在所有的轨范中&#Vff0c;依据该题所有知识元的状况&#Vff0c;找到几多个最重要的轨范做为要害轨范&#Vff1b;综折该题的所有知识元&#Vff0c;概括出原题考查的教研层面的知识点&#Vff08;教研知识点是从教师角度不雅察看的知识点&#Vff0c;取解题算法中的知识元不是一个维度&#Vff09;。

解题技术封拆成高考呆板人

为了真战验证主动解题技术的成效&#Vff0c;将解题技术封拆成高考呆板人&#Vff0c;正在2017年6月高考当天&#Vff0c;咱们的高考呆板人和宽广学生一起加入了高考&#Vff0c;正在高中数学得到了134分的效果&#Vff0c;那是人工智能技术落地正在教育止业的一个重要冲破&#Vff0c;惹起了蕴含央室正在内的各大媒体的关注和报导。

知识图谱

有了主动解题技术&#Vff0c;咱们就可以给所有题目问题的注知识点。教研教师取技术同学一起制订一淘笼罩所有知识点的四级知识体系&#Vff0c;知识点之间有层级干系&#Vff0c;也有依赖或联系干系干系&#Vff0c;呈一个网状构造。

那个知识体系取咱们的题库可以通过主动解题技术联系干系起来&#Vff0c;造成一个知识图谱。正在那个知识图谱中&#Vff0c;每一题都可以联系干系到若干个知识点&#Vff0c;每一个知识点也可以联系干系到若干个题目问题。有了知识图谱&#Vff0c;系统就可以主动为每次学生做业和检验生成进修报告&#Vff0c;从知识点的各个维度阐发学生的把握状况。

【做业主动修改】

点阵数码笔

正在学校的调研中&#Vff0c;学霸君发现教师修改做业的累赘十分极重&#Vff0c;欲望通过系统来协助教师修改做业&#Vff0c;解放教师的光阳和肉体。假照真现系统修改做业呢&#Vff1f;

首先须要聚集到学生的手写做业数据&#Vff0c;咱们通过点阵数码笔来真现。点阵数码笔须要正在普通纸张上印刷一层的确不成见的点阵图案&#Vff0c;数码笔前实个高速摄像头随时捕捉笔尖的活动轨迹&#Vff0c;同时联结压力传感器将数据聚集到办理器&#Vff0c;通过编码翻译将点阵图像翻译为笔迹的坐标位置&#Vff0c;最末将笔迹信息通过蓝牙传输到PAD上。

如下图所示&#Vff0c;学生运用点阵数码笔天然业或检验&#Vff0c;不扭转正在纸上写字的传统习惯&#Vff0c;同时可以真时将笔迹数据电子化。

手写识别

获与到学生手写数据后&#Vff0c;先通过版面图像办理技术将手写数据装解成文原止&#Vff0c;而后通过联机手写识别技术来识别出每一止的笔朱。

联机手写识别同样用到CNN&#Vff08;卷积网络&#Vff09;+BLSTM&#Vff08;双向长短记忆模型&#Vff09;+CTC&#Vff08;时序分类&#Vff09;的模型&#Vff0c;但详细的真现取前面的公式识别场景纷比方样&#Vff0c;出格是CNN的输入图像序列局部&#Vff0c;学霸君给取了华南理工大学金教授论文里的Path-signature特征做为CNN的输入特征图序列。

应付复纯牌版公式&#Vff0c;同样先装分红简略文原止&#Vff0c;识别后再组折起来。给取学生的真正在手写数据来训练&#Vff0c;理论证真&#Vff0c;真正在场景数据比咱们店主人力来写的成效要鲜亮好。

主动修改

只识别出学生手写笔迹&#Vff0c;还无奈完成主动修改&#Vff0c;因为范例答案是有不少种变形的&#Vff0c;同一个范例答案&#Vff0c;差异的表达方式可能都是准确的&#Vff0c;譬喻图上的那个例子。一个答案往往是有十几多种变形的&#Vff0c;那暗地里须要有大质的教研根原知识&#Vff0c;系统识别出范例答案后&#Vff0c;通过数学标记语言办理等算法&#Vff0c;主动生成所有的同义表达式。将学生笔迹的最末答案&#Vff0c;取范例答案的所有同义表达式停行婚配比较&#Vff0c;找到结果一致的表达式。婚配的历程还须要思考到&#Vff0c;学生笔迹的最末答案有可能有一些冗余笔朱。

应付解答题&#Vff0c;还欲望能依据轨范来修改&#Vff0c;想作到那一点是很是艰难&#Vff0c;学霸君给取要害轨范婚配的合中方案。通过主动解题技术&#Vff0c;可以与得解题历程的要害轨范&#Vff0c;为了进步修改精确率&#Vff0c;只选择少质要害轨范&#Vff0c;将要害轨范取学生的解题轨范停行婚配。最末题宗旨得分由要害轨范的分数和答案的分数加和而得。

【自适应进修】

跟着学生连续运用学霸君的题库作题&#Vff08;做业、检验等&#Vff09;&#Vff0c;系统可以连续聚集到学生的进修止为数据&#Vff0c;有了那些数据就可以作到自适应进修&#Vff0c;也便是赋性化进修。那里用到IRT的传统模型&#Vff0c;IRT真践即名目反馈真践(Item Response Theory)&#Vff0c;又称题目问题反馈真践&#Vff0c;是一系列心理统计学模型的总称。IRT是用来阐明检验效果大概问卷盘问拜访数据的数学模型&#Vff0c;目前宽泛使用正在心理和教育测质规模。

通过IRT模型&#Vff0c;联结大质学生作题数据&#Vff0c;可以阐明出每一道题宗旨难度以及学生的才华&#Vff0c;联结知识图谱体系&#Vff0c;进一步阐明出学生正在每个知识点的才华状况&#Vff0c;也便是学生的知识点才华模型。有了那个模型&#Vff0c;应付任何一道新题目问题&#Vff0c;可以预测出学生作对那道题的概率&#Vff0c;那样&#Vff0c;就可以给学生引荐难度适中符折他的题目问题&#Vff0c;太简略或太难的题就不必华侈光阳了。

应付止为数据富厚的地区和学科知识模块&#Vff0c;可以间接用RNN模型来训练&#Vff0c;输入的是学生的作题序列特征数据&#Vff0c;输出的是每一题的准确取否的预测。当数据质较大并且比较平均的时候&#Vff0c;RNN模型的成效才会相对抱负。跟着用户止为数据的不停聚集&#Vff0c;以及用户对产品的越来越标准的运用&#Vff0c;相信RNN模型是将来的标的目的。

【结语】

以上是学霸君将人工智能算法取教育止业联结的一些摸索&#Vff0c;一些算法看起来比较难&#Vff0c;但正在垂曲场景下运用恰当&#Vff0c;取工程名目深度融合&#Vff0c;是可以与得比较抱负的成效的。学霸君始末认为&#Vff0c;人工智能正在创业公司里的落地&#Vff0c;离不开取业务场景的深度融合。咱们的算法工程师不只可以写代码&#Vff0c;也能作卷子加入检验&#Vff0c;只要那样威力保持特有的折做力&#Vff0c;正在止业内有所冲破。

【苗广艺简介】

苗广艺&#Vff0c;中科院硕士钻研生&#Vff0c;先后就任于搜狐、YY、奇虎360。现担当学霸君技术副总裁&#Vff0c;卖力人工智能相关算法的研发推进&#Vff0c;以及根原技术正在业务场景的落地施止。带领团队正在国内率先研发出适应手机拍照各类复纯场景的笔朱识别算法&#Vff0c;为学霸君题库取教研体系搭建根原数据构造和算法效劳&#Vff0c;并将其使用于各条业务线&#Vff0c;同时带领Ai学聪慧教育平台技术团队研发了主动修改、自适应进修等多项前沿技术&#Vff0c;为Ai学业务奠定了技术根原。

随机推荐

推荐文章

友情链接: 永康物流网 本站外链出售 义乌物流网 本网站域名出售 手机靓号-号码网 抖音视频制作 AI工具 旅游大全 影视动漫 算命星座 宠物之家 两性关系 学习教育