PM技术课程|搜索引擎知道多少?

“搜索”在这个数据和信息庞杂的时代充当了人们信息的过滤器。通过使用搜索功能,人们可以获得他们想要的东西,并屏蔽掉无用的信息。对于商家来说,理论上搜索功能可以在一定程度上增加长尾信息的曝光度。但是,众所周知,搜索引擎的排名规则其实是有水分的。在竞价排名的规则下,长尾信息的曝光可能会浪费。所以,无论是C端还是B端的产品经理,了解搜索引擎的规则,学会如何利用好搜索引擎都是非常重要的。
一、第一次认识搜索引擎1。搜索引擎简史。一提到搜索引擎,就会想到国内的百度和国外的谷歌。我们想要找到什么信息?直接在搜索框中输入关键词,点击搜索按钮,就会显示搜索结果。
其实这只是搜索引擎的一部分。我们用微博搜一个明星,用淘宝搜商品,用豆瓣搜一本书。都是搜索引擎。因为这些搜索引擎是如此常用,我们没有意识到这一点。
搜索引擎本质上是一种获取信息的方式。
搜索引擎经历了分类目录、相关性搜索、高质量搜索和个性化搜索四个阶段。
在搜索引擎诞生之前,我们使用分类目录来获取信息。雅虎!而国产的hao123就是分类目录的代表。那时候资料相对较少。通过人工排序,列出了属于各个类别的优质网站。例如,根据金融、新闻、体育、游戏和其他项目进行分类,用户可以通过分类目录找到所需的信息。
但是,一个页面的展示空间是有限的,分类目录只能收录少数网站。大部分网站无法收录,不收录的信息可能正是大家需要的。
哪里有需求,哪里就有商机,搜索引擎也会跟风。
最早的搜索引擎是通过查找用户输入的关键词与网页信息的匹配程度,即计算两者的相关度,来显示网页列表的。至于如何计算匹配度,后面会解释。
与分类目录相比,该方法可以收录大量网页,并根据用户查询的关键词与网页内容的匹配程度进行排序。
但是这种方法有一个巨大的问题:只考虑了相关性,而没有考虑网页的质量。网页可以通过列出大量与内容无关的关键词来提高关键词的相关性。
例如,一个教育网站可能会列出明星、宠物、新闻甚至色情等高流量词汇。这种“强行蹭流量”方式的结果就是搜索结果质量不好。
谷歌就是解决这个问题的。谷歌认为网页中的链接越多,网站的质量就越高。网页之间的链接数量用于确定网页的质量。一个网页的链接越多,整个互联网的网页质量就越高。Google的核心算法也将在后面描述。
时至今日,搜索引擎不仅要解决相关性和质量的问题,还要兼顾用户的真实需求。例如,同样输入“苹果”,年轻人可能会想到手机,而其他人会想到水果。这需要更复杂的算法和程序。
二。什么是好的搜索引擎?从分类目录、相关性搜索、高质量搜索、个性化搜索,从搜索引擎的发展阶段可以看出,搜索引擎越来越复杂,用户体验越来越好。
那么,判断一个搜索引擎好不好呢?
有三个主要的评估标准:
1.好的搜索引擎要快,这是用户对搜索引擎的第一印象。
当一个用户搜索一个商品,几十秒都没有找到,可能是做了别的事情,就这么放弃购买了!商业搜索引擎的查询速度要达到毫秒级。一眨眼,搜索结果就出来了,用户体验非常好。
影响搜索速度的因素有很多,索引是最关键的因素之一,下一节会详细介绍。
2.当用户翻了三页都找不到想要的内容时,他根本就不会去找。
影响查询准确性的因素也很多,主要有以下三种:
存储在搜索引擎本身的信息应该是完整的。对于百度等商业搜索引擎来说,这就需要爬虫抓取整个网页内容。关键词和网页内容的相关度要高。用户搜手机的时候,单反相机很多,不太好。网页质量要高,Google发明的PageRank算法巧妙地解决了这个问题。
3.搜索引擎要稳定,这也是用户对大部分产品的要求。只有给用户一个合理的预期,才能让用户信任这个产品,两头用不了三天,体验极差。
搜索引擎是如何工作的?
那么,搜索引擎是如何工作的呢?
最基础的搜索引擎主要分为三个模块:信息获取、信息处理和信息展示。
女人无米之炊难,信息获取是整个系统的基石。就商业搜索引擎而言,要求爬虫抓取整个网页内容。至于爬虫,我们在上一章已经介绍过了,这里就不赘述了。对于网站内部搜索引擎来说,也需要对信息进行汇总。比如电商平台需要把所有的产品信息都存储在一起。
信息处理主要是对原始数据进行清洗,存储到数据库中。这里最重要的环节是建立索引,相当于给每个内容加了一个目录,方便查找。
信息展示是指搜索引擎根据用户的查询对数据库进行搜索,并将结果展示给用户,主要涉及用户的查询内容与网页内容的相关性分析、网页质量评价等技术。
虽然在搜索引擎的具体实现上存在差异,但是所有的搜索服务都可以在这三个模块的基础上实现。
第三,内容索引搜索引擎为什么这么快?
好的搜索引擎的评价标准之一就是快,那么搜索引擎是如何实现的呢?
在开始解释之前,我们可以考虑另一个类似的问题:如何在图书馆找到一本书?
最笨的办法是一个一个书架的找,会花很多时间。
一些巧妙的办法是通过索书号快速找到书架,然后找到书。
搜索引擎中的索引相当于图书馆中每本书的索书号。通过索引,可以快速找到所需信息。
指数是什么样的?
以网页搜索引擎为例:下图是一个简单的索引系统(更准确的说是倒排索引。至于为什么倒挂,这里先卖个小价钱,后面再说)。
左边是关键词,右边是这个关键词出现在哪个网页。一个关键词可能同时出现在很多网页中,所以是一对多的关系。
与图书馆索引不同的是,无论多大的图书馆,藏书仍然是有限的。图书管理员可以手动建立每本书的索书号。而搜索引擎存储的数据都是以亿为单位计算的,无法人工建立索引,只能使用一些技术手段。
从上表可以看出,建立索引主要有两个过程:查找关键词和将关键词与网页匹配。
关键词索引的前提是提取关键词。给定一个文本(即网页的文本内容),如何获取其中的关键词?
主要有两个步骤:首先,获取文本中出现的所有单词,也叫分词,然后选择其中的一部分作为关键词。
第一步是分词。
如果是英文句子,“Marry had a little lamb”,每个单词之间用空格隔开。里面有“玛丽”、“有”、“一个”、“小”、“小羊”五个字,但是中文的“玛丽有只小羊”是因为没有分隔符(比如空格)把每个字分开。
想到分词最简单的方法就是查字典,从左到右读句子(程序员的术语是遍历)。如果每个单词都出现在字典里,就标记出来。
以“玛丽有只小绵羊”为例。比如字典里一出现“玛丽”这个词,就把“玛丽”当成一个词。一旦“你”出现在字典里,它就把“你”当成一个词,以此类推。最后可以分为“玛丽,你,一只小绵羊”。
这种最简单的方式可以解决一些问题,但也有大问题,比如“小”“羊”或者整体“小绵羊”?
程序员使用统计学来解决这个问题:
从形式上来说,一个词是几个词的组合。两个词的组合可以是也可以不是一个词。如果词的可能性(概率)较大,我们倾向于认为它们可以构成词。
这就好比:天气预报表明下雨的概率是70%,不下雨的概率是30%,所以我们倾向于认为明天会下雨。“羔羊”一起出现的概率是70%,单独出现的概率是30%,所以我们倾向于认为“羔羊”是一个词。
那么,如何计算相邻词成词的概率呢?
我们可以统计语料库中相邻词的组合数量,计算相邻词的出现频率。当语料足够大时,频率越高,对应的概率越高。
我们可以计算一个句子中所有组合的概率,产生最大概率组合,这就是分词的结果。
比如每个单词“玛丽,你,一只,小绵羊”的概率大于其他组合如“玛丽,你,一只,小绵羊”的概率。然后,我们认为这句话是按照“玛丽,你,一只,小绵羊”来划分的。
第二步,获取关键词。
把所有的文本进行切分后,我们会发现有很多没有很强实际意义的虚词,如“的”、“了”、“马”、“可能”等。相比之下,“产品经理”、“搜索引擎”等更有实际意义的词就少了,应该把后者作为关键词。
因此,我们使用将所有这些功能词保存为停用词。如果某个词出现在停用词中,则不能用作关键字。所以,我们从分词结果中得到了关键词。
下面是一个简单的非索引字表。可能看出来基本都是我们经常用的词,没有很强的实际意义。
中文分词是几乎所有中文自然语言处理的基础,因此学术界和工业界对中文分词进行了深入的研究。有高质量的商业词库,有像街霸这样开源的中文分词库,可以免费使用。
通过提取每个网页的关键词,每个网页与关键词的对应关系如下:
注意:获取关键词不仅用于网页处理,也用于输入搜索框。当我们搜索一个中文句子时,搜索引擎会进行分词,去掉停用词,得到关键词,然后进行后续处理。
倒排索引现在,我们已经建立了索引。对于每个网页,我们已经找到了所有出现的关键词。
当用户查询时,我们从头到尾扫描每一个文件,看哪个网页有用户查询的关键词,把这个文件作为搜索结果。
但问题是:动辄上亿的网页,从头到尾扫描一遍需要很长时间,根本满足不了正常需求,更别说快速响应了。
那我们能不能把关键词放前面,网页放后面?
这样我们在搜索关键词的时候,不需要遍历整个系统,只需要寻找对应的关键词,就可以找到需要的网页!
就电脑而言,直接找到关键词的位置信息只需要很短的时间,完全可以满足搜索的需要。
比如用户搜索“关键词1”,那么搜索引擎只需要找到“关键词1”,就可以直接找到“网页1,网页2,网页5,…网页L”。
如果用户搜索“关键词1关键词2”,那么搜索引擎需要找到“网页1,网页2,网页5,网页1”,“网页3,网页4,网页5,网页M”,并找到“网页3,网页5,”这大大加快了排名的速度。
把“文件-关键字”的结构倒过来,“关键字-文件”就是倒排索引名的由来。
再者,倒排索引不仅记录了网页的ID,还记录了关键词出现的频率、每个关键词对应的文档的频率、关键词在文档中出现的位置等信息,可以直接用于搜索结果的排名。
4.对搜索结果进行排序。到目前为止,我们已经通过爬虫实现了信息获取,通过倒排索引实现了信息处理。接下来就是如何把信息展现给用户,最重要的是如何排序。
对于电商,用户可以选择按销量、信用、价格甚至综合排序。当然,排序中也会穿插一些推广。
对于一般的搜索引擎,比如百度,没有销量、评分等选项,排名主要是根据网页与搜索关键词的相关度和网页的质量。
TF-IDF模型如何确定网页与关键词的相关性?
如果关键词在一个网页中出现多次,我们通常会认为这个网页与搜索到的关键词相匹配,搜索结果应该更高。
我们用词频(Term Frequency,TF)来表示关键词在一篇文章中出现的频率,表示网页与关键词的匹配程度。
比如我们在百度等搜索引擎上搜索“产品经理的工作”,关键词是“产品经理”、“工作”。作为停用词,“的”不会出现在关键字中。
某网页,总共1000字,其中“产品经理”出现5次,“工作”出现10次。“产品经理”的词频为0.005,“工作”的词频为0.01。把它们加在一起,0.015就是这个网页和“产品经理的工作”的词频。
这里有一个问题。与“产品经理”相比,“工作”这个词的使用频率更高,它出现在所有网页上的概率也很高。搜索者可能想要找到与产品经理相关的信息。按照TF的说法,一些多次出现“工作”这个关键词的网站可能会排在第一位,比如《程序员的工作》、《老板的工作》等等。逆文档频率(IDF)应运而生。
文档频率可以理解为关键词在所有网页中出现的频率。如果一个关键词已经出现在很多网页中,那么它的文件频率是非常高的。反之亦然。比如“工作”的DF比“产品经理”的DF高。
文件频率越高,这个词就越笼统,有效信息就越少,重要性就应该越低。因此,我们取文件频率的倒数,形成逆文本频率。
八大定律也适用于此。20%的常用词占据了80%的空间,大部分关键词出现频率较低,导致文档出现频率较小,而反向文本出现频率较高,不方便处理。因此,为了便于计算,我们采用对数(当然,这里还有其他数学和信息理论的考虑)。
把词频(TF)和逆文档频(IDF)相乘,就是著名的TF-IDF模型。
关键词在网页中出现的频率越高,该关键词越重要,排名越高;在所有网页中出现的频率越高,这个关键词告诉我们的信息就越少,排名就应该越低。
TF-IDF模型帮助我们计算关键词和网页之间的相关度。只有使用TF-IDF模型,也能构建出效果良好的搜索引擎。
当然,商业搜索引擎也在TF-IDF的基础上做了一些改进。比如出现在文章开头和结尾的关键词比较重要,会根据单词出现的位置调整相关度。但还是基于TF-IDF模型的调整。
知名的PageRank搜索结果排序,只考虑相关性,搜索结果不太好。总有一些网页会随着某些关键词来回弹跳,使得自己的搜索排名靠前(当然部分原因是一些搜索引擎更喜欢推荐自己的东西,所以这不是技术问题)。
网页质量的引入可以解决这个问题。排序时,不仅要考虑相关性,还要考虑网页质量。把高质量的网页放在前面,低质量的放在后面。
那么,如何判断网页的好坏呢?
谷歌的两位创始人解决了这个问题。搜索引擎诞生之初,美国斯坦福大学研究生拉里佩奇和谢尔盖布林就开始研究网页排名的问题。
他们借鉴了学术界判断学术论文重要性的一般方法。看论文的引用次数。引用次数越高,论文质量越高。他们认为也可以根据这种方法来评估网页的重要性。
Page和Brin用PageRank值来表示每个网页的质量。他们的核心理念其实很简单,只有两个:
如果一个网页有更多的链接指向它,说明这个网页的质量越高,PageRank值越高,排名也应该越高;排名靠前的网页应该有更大的投票权。当一个网页被排名靠前的网页链接时,PageRank值越高,排名就越高。我们来打个比方:
有一个程序员,如果公司所有人都夸他编程技术高,那我们就觉得他编程技术高;如果他受到公司CTO的赏识,我们基本可以确定他的编程水平真的很牛逼。比如下图(专业术语是拓扑图),每个节点就是一个网页,每条线就是两个网站之间的链接。
链接越多,网站质量越高,对应的PageRank值也越高。
这里有一个问题:“当一个网页被排名靠前的网页链接时,它的排名也应该是靠前的”。一个网页的排名过程需要用到排名结果,这就变成了“先有鸡还是先有蛋”的问题。
谷歌的两位创始人用数学方法解决了这个问题:
首先,假设搜索到的网页具有相同的PageRank值;根据初始值开始第一轮计算,根据链接数和每个网页的PageRank值重新计算每个网页的PageRank值;根据上一轮的结果,根据链接数和每个网页的PageRank值,重新计算每个网页的PageRank值.
这样计算下去,直到每个网页的PageRank值基本稳定。
你可能会好奇,这个要算多少次?
Page在论文中指出:递归计算网络中的3.22亿个链接发现,经过52次计算,可以得到一个收敛且稳定的PageRank值。
当然,PageRank的实际操作要比这复杂得多。上亿网页的PageRank值计算量非常大,一台服务器根本无法完成,需要多台服务器实现分布式计算。为此Google甚至开发了并行计算工具MapReduce来实现PageRank的计算!
除了计算量巨大,PageRank还面临作弊的问题。
在一开始,我们谈到TF-DIF的弊端时,我们说:总有一些网页会随着某些关键词来回弹跳,使得它们的搜索排名很高。
同样,对于PageRank来说,总有一些页面来回弹跳,让自己的搜索排名靠前。这就需要更多的算法来识别这些“作弊”行为,我们会在搜索引擎反作弊一节中详细讨论。
至此,利用TF-IDF计算网页与搜索内容的相关度,利用PageRank计算网页质量,可以很好地实现网页排序,构建了一个基本的搜索引擎。
在此基础上,商业搜索引擎也衍生出了其他的排名方式。
竞价排名:
比较有名的是百度推出的竞价排名(其实并不是百度开创了竞价排名,只是百度做得太成功了,大家都以为是百度发明了竞价排名)。竞价排名是由网站的竞价级别决定的。
这种排名方式最大的好处就是可以帮助搜索引擎公司盈利。
最大的弊端是:不能保证出价高的网页质量就高,在医疗等特殊领域有时甚至相反。
随着用户数据的积累,关键词以及相应的用户点击网页的行为数据也被搜索引擎记录下来,搜索引擎可以根据用户的操作不断改进自己的引擎。
在商业搜索引擎底层技术相差不大的今天,用户数据的记录已经成为竞争的关键因素,这也是百度能够在国内搜索引擎市场领先的重要原因。用户越多,搜索越精准,用户越多!
站内搜索:
百度、谷歌等通用搜索引擎有很多工作要做。相比之下,站内搜索就简单多了。——数据量小,基本都是结构化数据。比如豆瓣看书,搜索的时候直接搜索自己的数据库就可以了。
虽然站内搜索技术和一般搜索引擎有很多区别,但是索引建立、相关度计算、质量计算、排名等流程基本相同。对于站内搜索的需求,也有开源的解决方案。
业界最流行的两个开源搜索引擎,——Solr和ElasticSearch,快速、有效、可靠、可扩展,最重要的是免费,足以满足一般的业务需求。
对于大多数公司来说,直接使用开源搜索引擎是可以的,不需要另起炉灶。甚至,这些开源解决方案比那些从零开始构建的解决方案更加稳定可靠。
动词(verb的缩写)SEO与搜索引擎反作弊。SEO搜索引擎结果排名影响流量,流量影响利润。哪里有利润,哪里就有“商机”。SEO是搜索引擎排名的“商机”。
SEO(搜索引擎优化)中文为搜索引擎优化3354就是利用搜索引擎的规则来提高网站在搜索结果中的排名。
SEO优化通常有两种方式:一种是网站内部优化,一种是外部优化。
内部优化主要是对网页内容进行优化,比如增加关键词数量,优化网页内部标签等。更有甚者,有些网页为了达到更高的排名,会用很小的词来重复关键词,或者用和背景一样的颜色来重复一些高流量的词。
外部优化主要是优化链接,比如增加友情链接、论坛、贴吧、知道、百科等。这就引出了买卖链接的生意。
可以看出,SEO的优化基本都是针对TF-IDF和PageRank的排名,“做自己喜欢的事”来提高自己的排名。
从用户角度反搜索引擎作弊:高质量、相关的信息才是我们真正需要的。
有些网页凭借SEO优化获得高排名,可能质量低,相关性弱,这对那些老老实实提供优质内容的网站是不公平的。
长此以往,可能会出现“劣币驱逐良币”,搜索引擎搜索到的优质内容在减少。
从这个角度来说,SEO是对搜索引擎的欺骗,搜索引擎公司不希望这种事情发生。3354搜索不到需要的信息,用户可能就跑了!
谷歌从诞生之日起就一直面临着作弊和反作弊的问题。
2001年,敏感的网站主和SEO优化人员发现,一些网站的Google排名一夜之间下降千里,而一些网站的排名却大幅上升,几乎一个月一次。
后来人们才知道,谷歌定期更新反作弊算法,提高搜索质量,让人感觉像在跳舞,所以被SEO称为谷歌之舞。
那么,谷歌是如何对抗作弊的呢?
虽然作弊的方式不同,但目的是一样的,都是为了获得更高的排名。总的来说是有一定规律的。根据这些规则,搜索引擎常用的反作弊手段有两种:根据作弊特征主动出击,建立“黑白名单”被动防御。
首先,搜索引擎会根据作弊网站的特点主动出击。
就像我们总能从人群中一眼看到长得最特别的人一样,一个有大量重复关键词的网页,一个有大量链接的网页,和一个普通的网页,在搜索引擎眼里是很不一样的。
通过计算一个网页的关键词数量和链接数量的特征,我们可以快速找到那些“出格”的网站,搜索引擎可以据此调整它们的排名。(上面说的Google Dance就是基于作弊网站的异常链接来实现反作弊的。)
其次,搜索引擎也会建立“黑白名单”作为防御手段。
搜索引擎会根据网站内容的质量、品牌、权威等信息建立白名单。比如政府网站和一些大公司网站都在白名单里。这些网站质量高,排名靠前,链接到白名单的网站质量普遍较高。
与之相对应的是黑名单,主要包括那些作弊严重的网站,比如叠加关键词、买卖链接的网站。如果同一个网站链接到多个黑名单网站,可以认定为作弊网站,排名可以降低。
有本事你来抓我《猫鼠游戏》梦工厂出品的一部电影,根据真实经历改编,讲述了FBI特工与擅长伪造文件的罪犯之间的一场猫捉老鼠的游戏。在搜索引擎中,这样的捉迷藏也是存在的。
电商网站的产品名称为什么这么长?为什么有利于返现?付费删除差评?为什么一些评价高的酒店/餐厅其实很脏?为什么影评网站经常因为好评/差评进入舆论中心?为什么微博等社交媒体有惊人的阅读量、点赞量和转发量?很难客观量化网站本身的相关性和质量。根据关键词、销量、评价、点击、阅读量等客观指标生成排名结果仍然是当前搜索引擎的工作原理。甚至决定是进入热搜榜还是热卖榜。
面对这些行为,搜索引擎不断进化出新的应对策略。
面对刷单行为,平台体验到了视而不见的无奈。随着物流追踪和订单用户识别的演进,刷单成本也大幅上升。刷单行为虽然没有杜绝,但是也明显下降了。
面临阅读量、点击欺诈等。社交媒体也经历了从顺其自然到封杀刷排名的转变。虽然中间有收益降低、用户活跃度降低、大V流失的风险,但最终还是会走这一步。
然而,这种欺骗和反欺骗抓我,如果你可以没有结束。
本文由@令狐原创发布。每个人都是产品经理。未经许可,禁止复制。
来自Unsplash的图像,基于CC0协议。

其他教程

v社和steam关系断绝(steam游戏刷成就)

2022-9-6 9:14:03

其他教程

c4d展uv贴图教程(c4d怎么给uv上贴图)

2022-9-6 9:16:05

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索