专业网络营销推广——跟随大平台节奏
电话+V: 152079-09430 ,欢迎咨询t 搜索 云时代的搜索引擎是什么,[专业新媒体运营推广],[各种商圈业内交流],[抖音运营推广课程],[微信运营推广课程],[小红书运营推广课程],[让你站在风口忘记焦虑]
一、搜索引擎是什么?
搜索引擎(英语:searchengine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。搜索结果一般被称为“hits”,通常会以表单的形式列出。网络搜索引擎是最常见、公开的一种搜索引擎,其功能为搜索万维网上储存的信息。
搜索引擎为一组项目提供了一个接口,使用户能够指定关于感兴趣的项目的标准,并让引擎找到匹配的项目,这些标准称为搜索查询。在文本搜索引擎的情况下,搜索查询通常表示为识别一个或多个文档可能包含的期望概念的一组单词。
有多种样式的搜索查询语法在严格性上有差异。它也可以在以前的站点中搜索搜索引擎中的名称。而一些文本搜索引擎要求用户输入由白色空格分隔的两个或三个字,其他搜索引擎可以使用户能够指定整个文档,图片,声音和各种形式的自然语言。
一些搜索引擎对搜索查询进行改进,以增加通过称为查询扩展的过程提供质量集合的可能性。查询理解方法可用于标准化查询语言。
扩展资料:
一个完整的搜索引擎需要有网页爬取和收录,建立索引,查询词分析,搜索排序,推荐系统五个部分组成。
1、网页爬取和收录。
网络爬虫技术是网页爬取的核心技术,可以通过编写一定的程序或者脚本来对互联网的信息进行抓取。在网页抓取之后,要构建相应的数据库来存储我们爬取的网页信息。
但是互联网的信息具有冗余性,主要原因是各大网站也都会在后台进行爬虫爬取,他们也会通过爬虫来检测一些热点的内容或者文章,然后爬取其信息并对格式进行重新的组织,但其实网页的内容几乎都是一致的。
所以在收录爬虫爬取的网页信息之前,我们还要加入一个关键的环节——网页去重,来确保我们数据库中网页的唯一性。
2、建立索引
在抓取了网页的信息之后,需要对网页的信息进行解析,抽取到网页的主题内容和类别信息。其主要涉及的技术为文本识别和文本分类技术。
网页解析后的输出往往是一些结构化的信息(每个网页的信息完整度是不同的,需要统一对数据进行结构化操作),一般的结构化信息包括网页的URL、网页编码、网页标题、作者、生成时间、类别信息、摘要等等。
在获取了网页结构化信息后,就要构建相应的索引了。为了加快响应用户査询的速度,网页内容通过"倒排索引"这种高效查询数据结构来保存,而网页之间的链接关系也会予以保存。
之所以要保存链接关系,是因为这种关系在网F相关性排序阶段是可利用的,通过"链接分析"可以判断页面的相对重要性,对于为用户提供准确的搜索结果帮助很大。
由于互联网的网页信息是海量的,所以搜索引擎的构建离不开大数据处理平台和云计算技术,目前较为常用的大数据处理平台为Hadoop生态架构。
3、查询词分析。
查询词分析就是query分析或者query聚类。当搜索引擎接收到用户的査询词后,首先需要对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。
比如,一个用户输入的查询词为“养水仙花”,那么除了基本的内容匹配外,搜索引擎需要读懂用户,其实用户的查询词还可以这样被理解“水仙花的养法”,“水仙花好养不”等等近意的查询词。
在此之后,首先在缓存中査找,搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果,如果能够在缓存系统找到满足用户需求的信息,则可以直接将搜索结果返回给用户,这样既省掉了重复计算对资源的消耗,又加快了响应速度。
4、搜索排序
搜索引擎在分析了用户的查询词以后,如果缓存的信息无法满足用户的查询需求,搜索引擎要根据索引来查询数据库的网页内容,并根据网页内容与用户需求来进行网页排序。
网页排序需要众多的因素,其中最为主要的因素为网页内容与用户查询内容的相似度(匹配度),这个不难理解,搜索引擎的基本功能就是查询。
如果一个搜索引擎无法为用户提供用户需要查询的内容,那其也就不能称为是一个搜索引擎,所以网页内容与用户查询内容的相似度是网页排序的一个首要依据;
另外网页的重要程度也是以关键元素,一个网页的重要程度关乎了网页内容的质量,在满足用户需求的基础之上,用户更加希望获得高质量的内容,这是无可厚非的。
根据上述因素,搜索引擎对查询到的结果进行排序,然后展示给用户。
5、推荐系统
其实从不严格的角度来说,整个网页排序的过程就属于一种推荐策略。从严格意义上来说,推荐系统并不属于一个搜索引擎架构的必要环节,而且推荐系统在上述示意图中并没有显示。
但是一个优秀的搜索引擎不止要能分析出用户查询的基本需求,进一步来讲,要能了解到或者猜测用户的可能的下一步需求。
目前随着大数据的热潮,各大互联网公司和众多专家认为推荐系统是解决互联网大数据的一种有效途径。而且,最近越来越多个性化推荐知识受到了热捧。其实推荐系统在搜索引擎中往往是以中间页的形式展示的,它的主要作用就是为推荐系统进行导流。
参考资料来源:百度百科——搜索引擎
二、搜索引擎有哪些?
搜索引擎有很多种,包括但不限于以下几种:百度、谷歌、必应、雅虎、搜狗等。
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
百度是拥有强大互联网基础的领先AI公司,是全球为数不多的提供AI芯片、软件架构和应用程序等全栈AI技术的公司之一,被国际机构评为全球四大AI公司之一。提供包括网页搜索、地图搜索、提供AI芯片等服务。
谷歌公司(GoogleInc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎公司。谷歌是一家位于美国的跨国科技企业,业务包括互联网搜索、云计算、广告技术等,同时开发并提供大量基于互联网的产品与服务,其主要利润来自于关键词广告等服务。
以上只是简单介绍搜索引擎,如需更多信息,可以到知识分享平台查询或请教专业人士。
搜索引擎技术大战,始于今日
作者|褚杏娟、核子可乐IT届很久没有像这几天这样因为某个技术热闹了,ChatGPT则是那条将水搅浑的“鲶鱼”。
几乎在同一天,谷歌CEOSundarPichai先在官方博客上宣布推出谷歌下一代AI对话系统Bard,以此应对ChatGPT;百度紧接着宣布将推出类似ChatGPT的产品——文心一言(英文名ERNIEBot)将在三月份完成内测,面向公众开放;不久后,微软公布了自家搜索引擎Bing最新版本,其采用的底层AI技术正是ChatGPT,同时微软还为Edge浏览器添加了新的AI增强功能,承诺带来前所未有的网络浏览与在线信息查找体验。
“搜索引擎的技术大战,始于今日。我们会继续前进并加快步伐。更重要的是,我们希望能在搜索领域持续创新,如今时机已到。”微软CEOSatyaNadella说道,“这代表着搜索领域进入了全新的篇章。”
传统搜索引擎+ChatGPT
那么,“传统搜索引擎+ChatGPT”会发生什么化学反应呢?根据微软介绍,这种新类型搜索与传统搜索的区别在于:
除了生成相关链接列表之外,新Bing还跨Web合并可靠的源,为用户提供一个汇总的答案。
搜索用户说话、发短信和思考的方式。新Bing将复杂的搜索和共享返回到详细响应。
在聊天体验中,用户可以自然地聊天,并询问初始搜索的后续问题,以获得个性化的答复。
新Bing可用作创意工具。它可以帮助用户编写文章、故事,甚至分享项目创意。
新的Bing搜索引擎将在网络搜索结果之外,向用户提供评论和见解
微软展示了所谓“新Bing”在不同配置下的运行效果。其中一种模式能够将传统搜索结果同AI评论并排显示(如上图),另一种模式则允许用户直接与Bing聊天机器人对话,在ChatGPT等聊天界面中直接提问(如下图)。
由Bing帮助规划的旅游线路示例
在一段演示中,演示人员要求Bing“安排一次为期五天的墨西哥城旅游计划,每天安排一段不同的行程。”聊天机器人给出了答案,包括一段简略的行程计划和指向更多信息的网址链接。
与ChatGPT不同,新Bing还能检索出关于最近事件的新闻。在演示中,搜索引擎甚至能够回答关于自己的版本发布问题,引用官方网站过去一小时内刚刚披露的消息。
微软表示,这些功能均由GPT3.5的升级版本提供。GPT3.5是为ChatGPT提供支持的OpenAI语言模型,微软将这个升级版本称为“Prometheus模型”,称其不仅比GPT3.5更强大,也能更好地利用最新信息和注释答案对搜索查询做出回应。
新的Bing已经上线“桌面受限预览”,用户似乎只能在预设的查询范围之内提问,而且每次都会收到相同的结果。另外还有一份候选名单,未来在开放完全访问权限后将可注册体验。
除了新Bing之外,微软在Edge浏览器上也推出了两项新的AI增强功能:聊天和撰写,二者将被直接嵌入Edge侧边栏内。其中,“聊天”允许用户总结目前正在浏览的网页或文档,并就内容提出问题;“撰写”则是充当写作助手,根据起始提示生成电子邮件、社交媒体帖子等常用文本。
Edge中的“聊天”功能允许用户就目前正在查看的文档,向AI机器人提出问题
“撰写”则将在Edge中提供写作辅助
AI聊天机器人,到底颠覆了什么
ChatGPT带来的冲击无疑是巨大的。清华大学计算机科学与技术系长聘副教授、博导兼聆心智能创始人黄民烈认为ChatGPT的出现对AI界来说,有着十分重要的意义:它宣示着无缝人机交互时代的来临。
而在搜索和信息检索领域,ChatGPT也取得了很大突破。达摩院基础视觉负责人赵德丽两个多月前在接受InfoQ采访时表示,短期来看,ChatGPT有望成为或者辅助像谷歌这种传统信息检索的强有力的工具;长期来看,它有望发展成为AI系统级的服务。
MRS.ai联合创始人兼CEOMingke向InfoQ具体解释了这场AI聊天机器人给搜索带来的颠覆到底是什么。
“谷歌当前遇到的颠覆,就像它当年颠覆了Yahoo——不是因为谷歌的listing做的比Yahoo更好(它甚至根本就没有listing)而是它给出了搜索引擎这个在当时全新的产品形态;现在谷歌面临的被颠覆,也不是因为谁做出了更好的搜索引擎,而是出现了一个全新的产品形态,即以自然语言作为输入和输出的AI。”Mingke说道。
Mingke表示,用户去搜索引擎是为了找信息,而不是为了找网站本身。在用户获取信息(静态数据)的需求和价值上,新的产品形态有机会颠覆旧的范式:用户不再需要打开推荐页上的网站链接自己再去读来找信息,而是通过对话直接获得自己想要的信息——甚至是基于这些信息的基础判断。在静态信息层面,一旦产品完成这个体验,谷歌的产品形态就直接“过时”,就像当年Yahoo一样。
现在,“传统搜索+AI聊天机器人”就已经在搜索领域势不可挡,并且微软已经率先实现。谷歌也在发布Bard的同时也表示很快就会将其集成到谷歌的搜索引擎中。
传统搜索市场基本稳定,如今搜索巨头的竞争重点放在了AI聊天机器人上。谷歌的Bard目前还没有向公众开放,我们只能从Pichai的介绍中初步了解Bard与ChatGPT的差异。
Pichai指出,Bard“利用网络信息提供新鲜、高质量的回复”,这表明它可能能够回答有关最近事件的问题——这是ChatGPT难以解决的问题。比如,Bard可以帮你向9岁的孩子解释NASA的詹姆斯·韦伯太空望远镜的新发现,或者为你提供关于当前足球界最佳前锋的信息。
Bard看起来可以与ChatGPT的对话能力相媲美,但似乎更侧重于搜索和可解释性,而不是成为能够写诗或散文的通用语言模型。Bard的预览片段显示模型以要点形式生成响应。
谷歌表示,语言模型可以更有效地从互联网中提取信息,让人们更容易直接找到他们正在寻找的东西,而无需自己去浏览多个网站。
“当人们想到谷歌时,他们通常会想到向我们寻求快速的事实性答案,比如‘一架钢琴有多少键?’但是,越来越多的人转向谷歌寻求更深入的见解和理解——比如,‘钢琴还是吉他更容易学习?每个乐器需要多少练习?’了解这样的话题可能需要花费很多精力来弄清楚你真正需要知道的东西,人们往往希望探索各种不同的意见或观点。”Pichai解释道。
Bard最初由LaMDA提供支持,随后会有一系列更多的模型。谷歌还表示,它计划创建一套让开发人员和企业可以使用的工具和API,该API将包含一系列基于其LaMDA系统的语言模型,如OpenAI基于GPT-3的模型。
当然,搜索的尽头并不是AI聊天机器人。“用户去找服务(动态数据)的这个需求和价值,依然还留空。谷歌没做到,现在新产品形态的AI也做不到。”Mingke表示。
新产品形态的产生,也伴随着问题
除了相互竞争之外,微软和谷歌无疑需要想清楚另一个更核心的问题:AI聊天机器人,真能替代传统搜索吗?它要怎么实现以往网络搜索的效果,一旦出错又会引起怎样的问题?
后面一点尤其重要,因为像ChatGPT这样的AI语言系统具有一种强烈的倾向,即把虚假信息当作事实来呈现。尽管多年以来研究人员一直就此事发出警告,但自从ChatGPT亮相互联网以来,AI产生错误的例子才真正迎来大爆发——从编造真实人物的虚构传记内容,到伪造学术论文甚至是提供危险的医疗建议,聊天机器人似乎什么都敢说、什么都敢杜撰。
AI的种种愚蠢行为以往就一直是个大问题,聊天机器人的普及只是给这个问题带来了新的关注,也请大家对于AI的网页内容归纳保持批判性态度。比如当我们搜索“病人癫痫发作时该怎么办?”,谷歌给出的搜索结果是“按住对方或努力制止他的动作”,但正确答案其实完全相反。
微软在演示文稿中也提到了这方面问题,称其一直在努力防范偏见和“越狱”(即以诱导方式令AI聊天机器人绕过防止生成危险/仇恨内容的过滤器)风险。Azure部门AI负责人SarahBird表示,“有了这款产品,我们在建立风险缓解衡量方法上已经比以往任何时候都走得更远。”
然而,微软也显然在为自家系统出错做好准备。新Bing界面包含一条写给用户的提醒,“让我们一起学习。Bing由AI提供支持,因此可能出现意外和错误。请确保核查事实真相并分享反馈,以便我们学习和改进!”
但还有很多问题并未得到解决,比如AI辅助搜索可能对网络生态平衡造成的破坏。如果像新Bing这样的AI工具开始主动从网络上抓取信息、不再向用户展示目标链接,那么相当一部分网站的基本收入来源就会被掐断。从这个角度看,这种新的搜索模式要想取得成功,必须保留一部分旧有协议。
参考链接:
https://www.theverge.com/2023/2/7/23587454/microsoft-bing-edge-chatgpt-ai
https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
https://www.infoq.cn/article/z30mE0bxrvItO9Mm52Nw
活动预告
2023年3月17-18日,ArchSummit全球架构师峰会将落地北京海航万豪酒店。来自百度、京东、华为、腾讯、斗鱼、中国信通院等企业与学术界的技术专家,将就数字化业务架构、低代码实践、国产化替代方案、分布式架构等主题展开分享讨论。
【GSFAI BANK FINANCING】尊享直接对接老板
电话+V: 152079-09430
专注于网络营销推广配套流程服务方案。为企业及个人客户提供高性价比的运营方案,解决小微企业和个人创业难题