整篇分割成段落,段落分割成句子,句子分割成词汇,词汇还能分割成字,既然最小组成单元是字,那么理论上只需要3600左右的常用中文字符就能让程序写出在绝大多数人水准之上的内容?
不预训练,不给字设定语义和语境,如何让程序听懂人话并且说人话?目前我认为这是实现思路的问题。如果把机器看成一只动物,它就是这世界上记忆力最强的动物,这么强的记忆力,不应该非得靠庞大的模型和海量的数据才能表现得比其他动物“聪明”才对。一定还有更好的解决思路....
P1:人类幼崽是如何学习(中文)语言的?先学拼音?拼音学了是用来认字的,即便不懂这个字的含义至少也能读出来,然后才开始学字,但是到这为止,是无法传递给他们字的含义的啊,连字都没认明白,又怎么去理解其含义?
P2:即便没有文化基础的人,也并不妨碍其与外界(他人)的一个基础沟通,别说写了,可能认都认不出啦,我的意思是,他并不需要去理解这个字的含义,仅靠口头表达就能跟他人正常沟通的情况下,你能说他是一个机器人吗?.....
P3:人类文明不存在了...如果非要按照目前大部分人的认知,非得理解其含义才算有什么所谓的心智才是很搞笑的。按照人类自己的要求,其实绝大部分的人类自己都不理解,只是机械的对应关系罢了,高端一点也就是个什么映射关系,难的从来就不是人类的语言,而是人放不下的傲慢。你知道太阳是头顶那个发光发热的大圆球,狗知道坐是让他后肢弯曲屁股贴地,这两种之间有鸡毛的区别?在我眼里没啥区别...
P4:既然所谓含义只是一个机械的对应关系,那么机器在语言方面超过人类是不可避免的,把一个东西想的太复杂往往容易深陷其中难自拔。(还是一些东西没屡清,晚点再来吹吧)
目前已经弃用Redis改用MySQL来存储了,也可能后面会结合,Redis用的少,遇到问题光浪费时间了,后面方案成熟了再视情况考虑迁移。
还是没有什么好的实现思路...再想想