大家好,感谢邀请,今天来为大家分享一下歌曲的问题,以及和人工智能作曲原理的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!
本文目录
普通话命题说话是人工阅卷吗
普通话命题说话是需要人工阅卷的。一般而言,普通话命题说话的评分标准比较严格,需要对发音、语调、韵律、语速、语音连贯性等多个方面进行评分。
因此,评分过程需要由专业的人工阅卷员进行,通过对考生的录音进行细致的评分才能得出准确的考试成绩。
定向打分法定义
定向打分法
定量分析+定性分析研究涵盖“城市基本面、房地产市场”两大维度,具体指标包含经济/人口/产业、土地/市场等,采用的主要研究方式有:配套POI爬取,人工统计数据、配套聚合图、栅格可视化,采用指标定性打分法、经验权重回归。
简述如何理解考试系统的人工评判
科目三智能考试系统是依据公安部令第123号对机动车驾驶人道路驾驶技能考试的相关规定和要求,最新研制的智能化考试系统。实现对考试项目的自动评判打分,提供考试过程回放等功能。智能考试系统采用自动评判打分与人工评判相结合的方式,减少了人为因素对考试过程的干扰,提高了考试的公开性、公平性、公正性。与人工路考考试相比其优点有:
1、规范驾驶员的开车行为;
2、提高电子路考效率减少考生积压问题;
3、全程自动语音提示、自动评判打分提高考试公平性、公开性、公众性。实行电子路考到目前为止,各大驾校的电子路考通过率还是不高,为了提高电子路考通过率满足广大驾校的教学需求,驾校辅助教学设备——好教练路考仪解决了广大教练、陪练的难题,语音播报根据当地驾考中心语音提供定制服务,自动播报、自动评判打分、采集线路比考车更有优势。双卡双待打电话、无线上网玩游戏等等。
PTE学术英语考试背后的评分原理?
英语语言能力测试越来越被大学、高等教育机构、政府部门和其他组织所需要,其目的是准确衡量国际学生在学术环境中的沟通技能。为了满足这一需求,我们开发了Pearson学术英语考试(PTEAcademic)。该测试能可靠地测量非英语母语,且希望在以英语为主要教学语言的机构学习的考生其阅读、写作、听力和口语能力。
介绍PTE学术英语考试于2009年在全球推广,此外,Pearson考试中心向全球提供PTE学术英语考试服务。PearsonVUE是管理电子化评测和认证委员会的全球领导者,提供从测试开发到测试交付再到数据管理的一整套服务。作为教育出版和评估领域的世界级领导者,Pearson将运用其几项自主专利技术来自动评估考生在PTE学术英语考试上的表现。世界各地的学术机构,企业和政府机构都选择Pearson的自动评分技术来测量学生、员工或申请人的能力。使用口语和写作自动评分技术的Pearson客户包括2008年财富20强企业中的8家;2008年印度BPO公司15强中的11家;美国、德国和荷兰政府;世界体育组织,如FIFA国际足联(世界杯组织者)和亚运会;主要航空公司和航空学校;和一流大学和语言学校。大范围的现场实地测试项目曾被用来检测PTE学术英语考试各项性能,并评估其有效性的,同时获得优化自动评分引擎所需的数据。该项目历时超过18个月,测试数据来自21个国家中38座城市的1万多名参加PTE学术英语考试现场实地测试的考生。这些考生来自158个不同的国家,讲着126种不同的母语,包括(但不限于)粤语、法语、古吉拉特语、希伯来语、印地语、印度尼西亚语、日语、韩语、普通话、马拉地语、波兰语、西班牙语、乌尔都语、越南语、泰米尔语、泰卢固语、泰语和土耳其语。现场实地测试的数据被用于优化PTE学术英语考试中写作和口语部分的自动评分引擎。
研究表明,在很多方面上,自动评分结果比人工更具分析性和客观性。与易受各种因素影响的人工评分不同,自动评分系统会更公正。这意味着自动评分系统不会被与语言无关的因素而“分散注意力”,例如考生的外表,性格或肢体语言(如口语面试中可能发生的那样)。这种公正性意味着考生可以确信,评分是单独依据他们的语言水平表现来评判,并且认可考试的合作伙伴也可以确信考生的分数是“普适的”—即便考生在北京,布鲁塞尔或百慕大,他们仍然会取得同样的分数。此外,自动评分允许某一语言样本的个体特征(口语或写作)被独立分析,因此语言中某个方面的不足并不会影响其他方面的评分。而人工评分者常会表现出从语言的一个方面到另一个方面有“判断转移”。例如,有些考生的语法非常差,但因为他们表达得流畅而被评为精通级。相反的是,自动评分可以客观地评估不同的语言技能。在自动评分技术开发时,Pearson进行了“有效性研究”,用以确保机器所给出的分数与老练的人工评分者给出的分数相当。在有效性研究中,人工评分者和自动评分系统对同一组新的考生回答(机器从未见过的)进行评分。在Pearson的有效性研究中,当人工评分与机器自动评分进行对比时,人们发现它们是相似的。事实上,人工评分和自动评分之间的差异非常小,通常小于两个人工评分者之间的差异。在写作和口语评分中均是如此。研究表明,PTE学术英语考试的自动评分技术可与那些受过培训的,且只考虑相关语言技能的,细心的人类专家相媲美。这意味着自动化系统在评估考生的语言技能时会“像人”一样“行动”,但又具备机器的精确性、一致性和客观性。
PTE学术英语考试的写作部分使用IntelligentEssayAssessorTM(IEA)进行评分,这是一种自动评分工具,由Pearson最先进的KnowledgeAnalysisTechnologiesTM(KATTM)引擎提供支持。基于20多年的研究和开发,KAT引擎通过检查整个段落来自动评估文本的含义。与熟练的人工评分者一样精准,KAT引擎运用一种自有的,名为潜在语义分析(LatentSemanticAnalysis,LSA)的数学方法来准确地评估写作。使用LSA(一种通过分析大量相关文本来得出单词和段落的语义相似性的方法),KAT引擎“理解”文本的含义与人类所理解的大致相同。被调整后的IEA可理解和评估任何学科领域的文本,包括用于离题响应的内置检测器,或可能需要提交给人类阅读者的其他情况。由独立研究员和Pearson进行的研究表明,IEA在知识评估和基于知识的推理上的可靠性。IEA的开发已超过十年,它已用于评估数百万篇论文,包括对小学,中学和大学水平的写作评分,以及评估军事领导技能。
考试IEA(IntelligentEssayAssessor)自动评估考生的写作技能和知识,并且可以受训为各种写作特征打分,人们可以信赖这个评分。它运用事先由人类阅读专家评分并给的回复作为指导,对考生所应答的整体内容进行评估。PTE学术英语考试中,要求考生写200-300字的论文以及50-70字的总结。当答案被提交进行评分时,系统会评估答案的含义以及写作技术等方面。系统将考试答案与大量事先受训的答案进行比较,计算相似性,并基于内容分配分数,部分依据将答案归类在最具有相似性的受训答案类别中。对写作技术方面进行评分的方法大致相同。系统评估考生答案中的每个写作特征(语法、结构和连贯性等),将其与大量事先受训的答案进行比较,然后根据该特征对答案进行排序。对于IEA的训练,在现场实地测试中收集了超过5万份写作地答复(包括作文和总结)。这些写作答复在许多单项特征被给予评分,包括内容、形式要求、语法、词汇、一般语言范围、拼写、衍变、结构和连贯性。所有考生在现场实地测试中的答案,首先由两名人工评分者评分,当前两名评分者意见不统一时,还有第三名人工评分者再次打分。这些人工评分者的评分作为训练IEA的资料被输入其中。由于考生的写作的答案被随机分配给来自澳大利亚、英国和美国的200多名评分者,这台自动评分系统接受了丰富且具有国际视角的评分训练。评分结果去除了主观倾向性。依据以上各个写作单项特征的得分,可以通过对所有写作特征单项的总和,给到每个考生写作表现的总体衡量标准。这个衡量标准由人工评分者和系统生成的分数组成。总分和两组人工评分者评分的相关系数为0.87。人工评分者与系统自动生成评分的相关系数为0.88。PTE学术英语考试写作量表的信赖度为0.89。
PTE学术英语考试的口语部分使用Pearson’sOrdinateTechnology自动评分。POT是多年来语音识别、统计建模、语言学和测试理论研究的成果。该技术使用自主专利权的语音处理系统,专门用于分析和自动评分来自英语母语和非英语母语者的语音。该系统除了识别单词外,还对语音中的相关片段、音节和短语进行定位和评价,然后利用统计建模技术对语音表现进行评估。要了解POT如何被“教授”进行口语评分,可以参考人类专家评分员如何训练他人在面试期间对语音样本进行评分。首先,专家评分员列出针对考生在面试演讲,准评分员要听的内容清单。然后,受训评分员观察专家测评大量考生的过程。而每次面试后,专家分享出其给考生打的分数,以及导致该分数的表现特征。经过几十次面试,受训准评分员的打分开始与专家给的分数非常接近。最终,依据专家对某一特定考生给出的分数,受训准评分员的打分也八九不离十了。实际上,这就是系统如何受训进行打分的过程。而且,自动评分系统并不仅有一名专家“教授”受训者,有许多专家评分者为每个答案输入分数;也不仅仅有几十个考生的答案,系统是针对数百名考生的数千个反馈答案进行学习训练。此外,机器无需被告知语音的哪些特征是重要的;当自动评分系统被优化为预测人类评分时,相关的特征及其相对的占比就从大数据的统计中被自动提取出来的。可能没有一个人类聆听者能够习惯超过100种的不同外国口音,但PTE学术英语考试的语音处理器已经接受了超过126种不同口音的训练,并且能够公平公正地处理所有这些口音。如果某考生有很浓重的口音,就很有可能被人工评分者给出一个低分数,在自动评分系统中,这个考生也将得到一个较低的发音分数。但重要的是,糟糕的发音不会影响考生的语法或词汇的得分。POT技术为Versant?语言评估提供支持,该评估由美国国土安全部、世界各地的航空学校、荷兰的移民局以及美国教育部等组织使用。独立研究表明,POT自动评分系统可以比当今很多最优的人工评分测试更客观,更可靠,包括一对一的口语能力面试。
POT自动评分系统从考生的口语反馈答案中收集数以百计的信息,例如他们的语速、时间和节奏,以及他们的声音的力量、重点、语调和发音的准确性。它还识别考生选用的词汇(即使发音不当),并评估考生答案的内容、相关性和连贯性。由于系统对每个答案中的数百个语言和声学特征都很敏感,因此如果特意关注某一特定领域,它也能非常精确地预估出老练的人工评分者将如何就这个特定领域给答案打分。PTE学术英语考试现场实地测试给机器学习提供了源数据,以便为测试的口语部分创建自动评分模型,原理就和写作部分一样。现场收集了来自1万多名考生的近40万份口语答案,其中包括考生在描述数字或图表时的答案,以及复述讲座或演讲。考生的回答被录下来,来并发送给人工评分者先进行评分。人工评分者对考生回答的一系列单项特征进行打分,这些单项特征包括内容、词汇、语言使用、发音、流利度和语调。然后再由先进的语音处理系统能客观观察考生回答的方方面面,例如语速、节奏和用词等方面,最后把系统打分与人工评分的分数进行比较。接着,再建立评分模型,用于预测受过训练的人工评分者如何评估任一“新”传入的答案。口语测试人工评分与自动评分的总得分之间的相关系数为0.96,证明了PTE学术英语考试中口语测试评分的可靠性。在参加PTE学术英语考试时,考生必须口头回答各种问题。他们的口头答案被捕获为音频文件,并由专利使用的POT评分系统进行分析。有些试题需要简短的口头回答。在这些情况下,自动评分系统测量考生的单词识别、发音、流利性和语法能力的准确性。其他更复杂的试题,考生要提供更长、更详尽的回答,需要更多句子或段落级别来表达。除了上面列出的单项特征外,自动评分系统还提供了针对答案的内容与词汇的评分。总结通过结合大量现场实地测试、深入研究和Pearson的验证,有专利权的自动评分技术,PTE学术英语考试提供最先进精准测试来测量非英语母语者的听说读写能力,同时填补了自然语言处理NLP在语言测评领域的关键空白。
References关于KnowledgeAnalysisTechnologies(KAT)Engine,LatentSemanticAnalysis(LSA),andIntelligentEssayAssessor(IEA)Calfee,R.(2000).Togradeornottograde.IEEEIntelligentSystems15(5),35–37pearsonkt.com/papers/IEEEdebate2000Landauer,T.K.,D.Laham,&P.W.Foltz.(2003).Automaticessayassessment.AssessmentinEducation:Principles,Policy&Practice,10(3),295-308.Landauer,T.K.,D.Laham,&P.W.Foltz.(2000).TheIntelligentEssayAssessor.IEEEIntelligentSystems15(5),27–31.Landauer,T.K.,P.W.Foltz,P.&D.Laham.(1998).IntroductiontoLatentSemanticAnalysis.DiscourseProcesses,25,259–284.pearsonkt.com/papers/IntroLSA1998Landauer,T.K.,&S.T.Dumais.(1997).AsolutiontoPlato’sproblem:TheLatentSemanticAnalysistheoryoftheacquisition,induction,andrepresentationofknowledge.PsychologicalReview,104,211–240.pearsonkt.com/papers/plato/plato.annotePearson(2008).ReliabilityandValidityoftheKATEngine.pearsonkt.com/researchVRSum关于OrdinatetechnologyandVersanttestsBernstein,J.,J.DeJong,D.Pisoni,&B.Townshend.(2000).Twoexperimentsonautomaticscoringofspokenlanguageproficiency.InP.Delcloque(Ed.),ProceedingsinInSTIL2000,pp.57–61.Dundee,Scotland:UniversityofAbertay.http://pearsonpte.com/research/Documents/Bernstein_DeJong_Pisoni_and_Townshend_2000.pdfHarcourt(2006).PredictingICAOlevelsfromVersant?forEnglish.Author.http://www.pearsonassessments.com/hai/images/dotcom/vaet/ICAOPredictionFromVersant.pdfKerkhoff,A.,P.Poelmans,J.deJong,&M.Lennig(2005).VerantwoordingToetsGesprokenNederlands.[AccountoftheTestofSpokenDutch]DenBosch:CINOP.https://zoek.officielebekendmakingen.nl/kst-29700-30-b3.pdfPearson(2004).VersantEnglishTest:CandoGuide;Ordinate?SET–10?.Author.http://pearsonpte.com/SiteCollectionDocuments/Versant_English_Test_Can_Do_Guide.pdfPearson(2008).VersantAviationEnglishTest:TestDescriptionandValidationSummary.Author.http://pearsonpte.com/SiteCollectionDocuments/Versant_Aviation_English_Test-Test_Description_and_Validation_Summary.pdfPearson(2008).VersantEnglishTest:TestDescriptionandValidationSummary.http://www.versanttest.co.uk/pdf/ValidationReport.pdfPearson(2008).VersantSpanishTest:TestDescriptionandValidationSummary.http://pearsonpte.com/SiteCollectionDocuments/Versant_Spanish_Test_Test_Description_and_Validation_Summary.pdf
如果你还想了解更多这方面的信息,记得收藏关注本站。
推荐阅读美国担心人工智能领域(美国人工智能出问题)
创业人工智能领域,创业人工智能领域包括
mit 人工智能领域(mit首次提出人工智能)
小米人工智能领域加盟,小米人工智能家居加盟
人工智能领域工程 人工智能领域工程有哪些
医疗人工智能领域 医疗人工智能领域包括
医疗领域人工智能融资(医疗领域人工智能融资现状)
人工智能领域规范,人工智能领域规范文件