本文摘要:用于机器学习算法,研究人员可以辨别一个人的手写英文文本,以确认作者是来自这五个有所不同国家——马来西亚,伊朗,中国,印度和孟加拉国的哪一个。
用于机器学习算法,研究人员可以辨别一个人的手写英文文本,以确认作者是来自这五个有所不同国家——马来西亚,伊朗,中国,印度和孟加拉国的哪一个。研究人员创立了一个由这些国家100人构成的数据集,他们用英语文学创作,总计500行。用于这些手写数据,一个取名为CloudofLineDistribution(COLD)的工具可以分解成单个字母,测量文本的直线度或曲率。该算法在确认作者的国籍方面,继续执行完全相同的任务的时候,展现出高于现有的方法,辨别有些国家的书写人员的国籍的正确率甚至低一倍。
该算法正在展开的是机器学习拟合方法——提供模式。例如,当中国本土作家用于罗马字母时,他们不会使用直线书写字母,因为汉字一般来说是用直线的笔画组合而成的。另一方面(双关语),来自印度和孟加拉国的作家具有曲线书写的习惯,因为他们的大多数剧本都是草书,形状更加圆。
辨别笔迹是计算机视觉研究人员解决问题的首要任务之一。以前的研究企图检测情绪,对性别展开分类,并确认作家的年龄,但除此之外,没做到过于多工作企图从笔迹中提炼出更加多信息,有可能是因为没有人寻找通过它利润的方法。来自印度、中国和马来西亚的研究人员明确提出这种技术对犯罪调查很简单。
警方更加多地改向生物识别技术,以此来解决问题犯罪问题,从手写体中萃取的辨识信息可以补足人脸识别软件等其他技术所辨识到的信息。但目前,针对这些技术,仍未解决问题此类技术或者类似于技术的隐私和民权问题。例如,缩放训练数据中现有种族主义的错误可能会将无辜的人牵连到刑事调查中。
或者公司可以用于手写辨识软件根据某人的国籍甚至智力等特征来区分潜在客户。实质上,在执法人员部门在考虑到否用于这些技术之前,研究人员必需考虑到扩展他们的数据集和用途,来证明COLD并某种程度是一个有意思项目的小数据集。
本文来源:博鱼boyu体育sports-www.ecutigercard.com