首页 > 资讯列表 > 科技资讯 >> 业界动态

输入法第一时间收录网络热词进词库 就这样

业界动态 2015-03-20 01:57:04 转载来源: 网络整理/侵权必删

看到一条有意思的微博图片(下图),因此很想知道“互联网+”之类的词输入法是怎么第一时间收录进词库的,这背后是人工监控收集的吗?当然,这根本不可能是人工监控,搜狗不可能找那么多“临时工”。好,玩笑不多说,下面是纯干货

看到一条有意思的微博图片(下图),因此很想知道“互联网+”之类的词输入法是怎么第一时间收录词库的,这背后是人工监控收集的吗?

当然,这根本不可能是人工监控,搜狗不可能找那么多“临时工”。

好,玩笑不多说,下面是纯干货。我以搜狗输入法为例来给大家分析分析是怎么做到的?

既然不是人工,那肯定就是程序分析啦,不过究竟是什么程序?据我所知,输入法那边其实也没具体的叫法,但是原理其实都明白,我这里根据用途杜撰了一个,姑且叫他热词挖掘系统,不知道是否准确,如果输入法的同学看到,有更好的说法,请补充。

其实挖掘系统是为能够及时发现网络新词丰富词库而开发,所有的新词主要有三个来源――搜索中的热词、社交媒体中的热词、用户输入频率高的热词。一旦以上渠道的某个网络新词的热度达到一个预设的值,就会触发热词挖掘系统,云端词库将收录该词,然后push给用户。这其实从另一个角度说明了一个问题,一个网络新词火还是不火,有没有被输入法搜录进词库其实也是标准之一。

下面我比较细的分析下热词挖掘系统,看他是怎样工作的!

搜索

首先要说搜狗输入法一个特别牛逼的地方:搜狗输入法与搜狗搜索的数据其实是共享的。这样的结果就是搜狗输入法可以根据用户的搜索次数发现各种词到底火不火,一旦一个“关键词”搜索频率过高,搜狗输入法就及时的将它与云端词库进行对比,如果发现词库中没有这个关键词,当这个关键词的搜索量达到一定量级后,就会触发搜狗热词挖掘系统进行判定,判定为热词后就将它添加进词库。比如题主说的“互联网+”这个词,在原来的词库里是绝对没有的,但是搜索这个词的用户多了,热词挖掘判定通过,词库就会有这个词。

社交媒体

社交媒体是网络新词的最主要诞生地,新浪微博公布的数据是每天发布的内容超过1亿条(实际可能没有这么多,呵呵),这些微博内容从流行段子到心灵鸡汤以及文艺青年的碎碎念,其实都是热词系统要爬要分析的内容,另外特别值得一说的是,据说热词挖掘系统还能独家挖到微信公众号的内容来分析(有干爹就是牛啊)。所以像“duang”之类的新词一旦在社交媒体出现,热词挖掘系统就会根据他的提及率、阅读量、含有新词热门微博的转评数据进行分析,当对比后发现这些流行词汇没有收录,然后系统就会更新到词库中,之后你就会发现输入这个词时他已经成了首选词。

用户体验计划

其实无论那一款软件,都有会这样的提醒,“加入XXX的用户体验计划”,而搜狗输入法的用户体验计划最主要的用途就是词库的更新。新词出现后,搜狗输入法热词挖掘系统就会对这些用户提供的新词的热度进行统计,一旦热度超过一定的标准,搜狗输入法也会将这些词加入到需要更新的词库中去。

以上只是我的一些初步分析,但相信已经离真相不远了。如果输入法的同学能够看到,有兴趣的话不妨补充下。

标签: 输入法 一时间 收录 网络热 词进 词库 这样


声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!

站长搜索

http://www.adminso.com

Copyright @ 2007~2024 All Rights Reserved.

Powered By 站长搜索

打开手机扫描上面的二维码打开手机版


使用手机软件扫描微信二维码

关注我们可获取更多热点资讯

站长搜索目录系统技术支持