登陆注册
60661300000051

第51章 “感知机”的初次实战

业余黑客有个潜规则。

政府机关、金融系统、电子商务……这类网站的后台,是机密重地,通常有高手坐镇,没事最好别去溜达。

被网监或者安全专家盯上,十有八九落不了好。

而个人网站、小型办公网络、学校网站……

这种信息安全不太敏感的,仅仅是浏览或下载一些数据,一般不会有什么大问题。

比如从铁道部官网12306爬点数据,做个辅助订票系统什么的……

但无论任何地方,肆意破坏总是不被允许的,这是底线。

《原始数据表》的奇怪情况,身份证位数不对,侧面支持了这种可能性。

通过黑客手段获取数据,有时候会遇到一些匪夷所思的问题,比如数据格式特殊,下载的数据宽度受限……

有时候,甚至在后台数据库里,只能找到数据的一部分,而其余部分被保存在无法访问的文件里。

写后台程序的人,会基于各种各样的理由,写出可读性极差的代码。

比如:读写效率、数据安全、修补bug、系统健壮……

又或者不想被人继承代码,取代自己的位置,甚至单纯为了个人兴趣、编程风格……

都可能导致这些人,搞出种种令人费解的骚操作。

当然,也可能老高的技术还有缺陷,或者他是从虚拟内存、交换文件里挖掘出来的数据。

也有可能在“作案”过程中被人盯上,不得不提前断开连接……

总之,摆在江寒面前的,就是这么两张各有缺陷的表格,外加一个图片压缩包。

接下来,江寒首先要做的,是从《原始数据表》里,筛选出需要的记录,复制到《报名信息表》里。

这一步非常简单,只要用excel自带的VBScript编写一个小脚本,将两个表格按照姓名匹配,就可以得到每个考生在原始表里的行号。

当然,同名同姓是避免不了的,可能报名信息里一个“张三”,在原始数据里会找到一堆“张三”……这个一会儿再说。

脚本编程非常简单,江寒只用了二十分钟,就写完程序并调试无误。

按了一下预设的快捷键,脚本开始执行。

一边是3万多行的考生姓名,一边是10万多行的原始数据,脚本足足跑了八分钟,才得到了一个映射关系表。

接下来,是第二个脚本,参照映射关系表,将原始数据文件筛选出需要保留的行,其他行全都删除,然后按照《报名信息表》的序号,重新进行排序,得到临时文件1。

这个临时文件的行数,要比报名表多出几千行,这是因为江寒对重名进行了处理,将重名的人都编上了相同的二级序号。

接下来处理重名。

经过一番分析,江寒发现,原始数据表和报名信息表里的数据,排列顺序是有规律的。

其以地区为主关键字,所在学校为次要关键字,而所在班级则是第三关键字排序。

也就是说,一个学校里,一个班级的人,都挨在一起,学校、地区之间也没有混乱。

这样就好办了。

由于临时文件已经按序号排列,重名的人拥有同样的二级序号,自然就聚拢在了一起。

这时,只要看一下这些人的所在地区和学校,就能轻松分辨出哪些是多余的,那个才是真正对应于《报名信息表》的。

如果一个班级也有同名,就只能具体情况具体分析了,实在确定不了的,就先记下来,放在一边,以后再说。

一番整理后,临时文件1已经十分接近高老师希望得到的《报名信息表》。

联系电话、家庭住址,毕业学校、班级、民族、年龄、出生年月日都有了。

接下来是重头戏,通过照片判断每个学生的性别。

幸运的是,虽然《原始数据表》里的身份证号,残缺不全,导致性别信息不可用,可是《报名信息表》里还有部分残余的性别数据。

这就给江寒减少了许多负担。

接下来,先将照片.rar解压,然后观察了一下。

三万多张照片,按学校、班级分类,放入几千个文件夹中。

每个文件的大小,都在10KB至30KB之间。

像素只有210*120,不算特别清晰,但看清面部特征,还是没什么问题的。

其中,同班级里重名的情况,都在姓名后标记着数字1、2……

江寒猜想,这可能是输入报名表的顺序。

接下来要做的,就是在临时文件1里,找到每张照片对应的人。

这很简单,照片的文件名就是姓名,轻松就能和表格里的名字对上。

在解决了数量不算很多的同班重名问题后,就生成了一个照片索引,将每一张照片和报名序号一一对应上了。

然后,是判断性别,填入新《报名信息表》对应的单元格里。

这一步,按照高老师的想法,就是一个笨功夫,用眼睛去看,然后一个一个敲进去。

这十分麻烦,而且太没效率。

江寒希望能找个轻巧的办法,能更快、更好的完成这一步。

那么,这样的办法真的有吗?

是的。

江寒毕竟搞过机器学习,编程思维有点不一样。

高老师那样的普通程序员,也能做到刚才那些步骤。

但江寒接下来的操作,就是他的思维盲区了。

机器学习里,有多种算法,都可以辅助完成这样的任务。

其中江寒最擅长的,自然是人工神经网络。

人工神经网络也分为好多种类。

比如CNN,也就是卷积神经网络,是最擅长图形识别的;

而RNN,也就是循环神经网络,比较适合语音识别、自然语言理解……

如果采用人工神经网络,哪怕不出动CNN,只用多层神经网络,也就是所谓的“深度学习”,也可以非常完美地解决这个问题。

但江寒琢磨了一下,还是放弃了这个想法。

一旦泄露出去,他很可能会有麻烦。

因为这些技术的来源,他根本没法解释。

技术跨度太大了。

好吧,安全第一,先用“感知机”凑合一下。

哪怕准确率低点,也无所谓了。

江寒现在唯一可以拿出来的,就是“单层感知机”。

这种技术只能解决二分类问题,并且还要求线性可分。

好在当前所面临的问题,这两个要求正好都符合。

江寒重生前,做过一个实验,用“单层感知机”识别手写数字,应用场景与现在差不多。

效果也还过得去。

所以,看照片识别男女的任务,完全可以使用“单层感知机”解决。

说起来,这可能是神经网络技术,在这个世界的第一次实战?

江寒前几天写的论文里,就有“单层感知机”的代码,稍微改动了一下,就能用上了。

研究机器学习,首选语言是Python,语法简单,开发效率高,不容易出错,也不用关心底层如何实现。

不过,这篇论文的代码,实在太简单,用什么都一样。

所以,江寒使用了最熟悉的C++。

代码略……

(PS:绝对不是空白太小写不下。)

同类推荐
  • 快递小哥救地球

    快递小哥救地球

    简介:“秦始皇陛下,您的快递,老鼠一只,请签收。”“亚历山大皇帝,您的快递,清热散一盒,请签收。”“牛顿先生,您的快递,苹果一只,请签收。”“梵高先生、华盛顿总统阁下、隆美尔将军、爱因斯坦先生……您的快递,请签收。”未来的地球时间线已经崩坏,快递小哥需要将各种关键道具送到重要的历史人物手中,拯救一塌糊涂的未来。平凡的岗位担负起伟大的救世使命,一路固然险阻重重,但对敬业爱岗的快递小哥来说,这都不是事,因为我是有“快递一哥”之称的最强快递。没错,快递一哥,使命必达!
  • 心迷宫

    心迷宫

    小说以青年韩瑞轩心灵的成长和解脱为线索,通过引人入胜的奇妙故事来分析人世间的微妙道理——感谢阅文书评团提供书评支持
  • 徒手猎乾坤

    徒手猎乾坤

    清风明月一盏灯,过往的都是俗世。唐俊枫蹲在阴暗的巷子里面,只想找本正版的孙子兵法。无计谋不权术,家里那么多婆娘,没一个还能见当年的温柔可人。站在巅峰的男人,难做啊!
  • 超级改造人生

    超级改造人生

    曾子傲获得神器驻体后,在人生各条线上都走上了不平凡的道路。虽有神器,但赚大钱,踏上人生巅峰依然不是那么容易。走险地,创龙潭,探索未知境地。积累人脉,借势压势。看主角如何添彩自己平凡的人生。
  • 27岁前赚到700万

    27岁前赚到700万

    “无论伟大的人还是平凡的人都要在一生里经历许多磨难”,这是一部笑泪书,是属于年轻一代的心灵呼喊,藏着艰辛与血汗,更多的是欢笑,有无知的,有痛快的,有茫然的,有愤怒的。主人公只是一个很平凡的小青年,他没有什么背景和资本,单凭一双手要完成一个能把正常人压垮的诺言。他最终做到了,天知道他靠的是什么。
热门推荐
  • 未来之光,月影星劫

    未来之光,月影星劫

    公元2100,世界科技高度发达,而人类面临的是人口爆炸,资源衰竭,为了寻求新的机制使地球得以长久的延续下去,科学家们本打算派出最精干的力量穿越时空寻找线索,可一场意外,让时空发生了变故,于是三个少年从此踏上了漫漫修行之路……
  • 劫仙传

    劫仙传

    楚羽因困仙结被神秘道人所救,对方观其仙骨奇佳,遂引荐观云阁仙尊,成为观云阁的一名小仙童,因得仙尊的独宠而被众师兄弟打击陷害,甚至差点丢命,机缘巧合,结识了千年莽神,得到自尊秘籍,至此,凡界,仙界,修真界,神马的全部沦为下饭菜……
  • 花在雨季殇

    花在雨季殇

    幸福的童年,烦恼的中学,消沉的大学,艰苦的军旅生涯。
  • 汉武大帝刘彻(世界伟人传记丛书)

    汉武大帝刘彻(世界伟人传记丛书)

    汉武帝刘彻(前156年-前87年)是汉代最重要的皇帝之一,景帝刘启第三子,母王美人,4岁时被封为胶东王。因受景帝姐姐刘嫖的喜爱,7岁立为皇太子。汉景帝后三年(前141年),16岁的刘彻登上皇帝位。第二年,首创年号为“建元”。从此,我国历史开始用年号纪年。
  • 王俊凯,请你搞清楚

    王俊凯,请你搞清楚

    他们相爱许久,情敌却冥顽不灵,他们经历了许多危险、生死离别,却一一渡过难关……
  • 言杰意赅

    言杰意赅

    有这样一句话,每一次告别都有一颗星熄灭,只是她这次告别的跨度飞跃了两个时空,她不知道属于自己的那片星空终将全部熄灭,后来的后来,一片漆黑,她做着黑暗里拾贝的人,回忆的热浪总是会不经意把她卷入噩梦,喋喋不休......
  • 北功曲西

    北功曲西

    在女娲补天之前,天地间本就有人,只是经历了一场毁天灭地的浩劫。下代人地降临就非得延续上代人的轨迹?世人的命数皆该被印在命盘之上?伏歌是世间祭元神尊天道的第一人,往后来者会延续宿命?还是会挣脱观念传承?
  • 我的帅气少爷

    我的帅气少爷

    聪明智慧的魅力女主角金芽子是为了得到出国深造的机会,必须赢取奖学金。巧扮女佣入豪门,来个实地靠草。好友牵线,豪门好进,女佣难当,前有11穷追猛打,后又小人栽赃陷害,还有通奸罪名头上扣,看来这个课题真实伤脑筋。不过自古美女必有英雄救,以来治愈系纯情男陆小迪假扮园丁,被11者看上,于是给他当男佣。二来豪门少爷李成麒充当骑士时时在。想要知道更多精彩,继续入读章节...
  • 穿越重生:病娇王爷彪悍妃

    穿越重生:病娇王爷彪悍妃

    云藐觉得一定是她上辈子没烧好香,所以这辈子才被穿越到了这样一个家族里。亲爹祖母无视落水发烧的孙女,只安抚那因‘不小心’害的妹妹落水而心慌慌的庶女姐姐,各种赏赐不断美其名曰‘压惊’。云藐原想着忍到长大成人然后谋划谋划出嫁了事,却不想这各种小人奸人贱人粉墨登场,搅的她没了安生日子。云藐言:”我的日子既然不安生了那你们也不想过日子安生了!“
  • 混迹海贼世界的白熊

    混迹海贼世界的白熊

    海贼王是谁?罗杰?“不,是我,沃利贝尔。”这是一个穿越者获得沃利贝尔外貌,技能,从神之谷开始闯荡新世界。