烟台官网优化 烟台网站营销 百度搜索提取页面内容教程
你的位置:烟台官网优化 > 烟台网站优化 >

烟台网站营销 百度搜索提取页面内容教程

发布日期:2022-05-12 09:46    点击次数:104
百度搜索提取页面内容教程

内容导读:百度搜索真正的提取工作要复杂得多,大家可以通过本文做个大概的了解。了解百度搜索提取页面内容的原理和过程,对于提升页面质量度有很大的帮助,比如把页面做成漂亮的图片,但只有很少的文本内容,这就不行!本文还可以帮助大家理解外链、投票等。

我们都知道搜索引擎会爬行和提取页面内容,但是到底是怎么提取内容的呢,本文沐风SEO就通过案例简单的给大家解释下。如果你不知道搜索引擎是怎么提取内容的,看完本文相信就基本清楚了。

源代码.jpg

上面这个是页面源代码内容,可以看到有很多的内容,包括了英文字母和汉字文本。

前端内容.jpg

这是前端,这里没有加更多的css样式,通常页面里面都会有很多的样式的,前端显示也会更好看。

那么对于这个页面,百度搜索是怎么提取内容的呢?简单说有以下几个部分:

1、页面标题:水煮鱼的做法。

注意这里又会进行中文分词,会分成“水煮鱼”“做法”“水煮鱼做法”,分词和组合。

后来出现了盖子,可以很好的阻挡灰尘和水汽,但是当时看起来并不方便。过了一会儿,桌子上出现了一面镜子。由于材质不同,手表玻璃分为塑料、有机玻璃、蓝宝石(人造)三种;大部分高端欧米茄手表主要采用蓝宝石表玻璃,因为其硬度只有钻石才能超越,而且具有耐磨性。不过比较脆弱,会损坏欧米茄的镜面。特别是当镜子破碎时,如果玻璃进入表盘或机芯并划伤表面或零件,就值得扔掉。

欧米茄机械表的工作原理欧米茄机械表的形状是螺旋形的。当人们给他的手表上发条时,螺线也同时收紧。当螺旋桨被释放时,它将开始驱动时钟。机械表的主要缺点是螺丝运动速度不一致,导致时间精度降低。精度还受到温度、位置、零件磨损和其他因素的影响。因此,当欧米茄机械表每日误差在15-30秒时,可以认为是正常现象。最小误差只能达到4到5秒。

2、正文内容。百度搜索只提取有意义的词,过滤没有意义的词。

有意义的词:鱼/鱼肉片/鱼片/盐/淀粉/大蒜/干辣椒/姜/锅/油/姜/蒜/红辣椒/火锅底料/水/黄豆芽/蔬菜/鱼片,可以看到,这些提取的词基本都是名词。

无意义的词:比如首先/下来/和/然后/最后/即可等等这些。

辅助性的词:比如处理/干净/抓匀/切末/烧热/烧开/自己喜欢/腌制好等等。

可以看到,有意义的词是必不可少的,少了这些词页面内容就不完整了。但无意义的词去掉以后并不会改变页面内容,而辅助性的词则是帮助用户更好阅读。在通过指纹计算相关性的时候,主要是参考和计算有意义的词。

上面内容出现频率高的词是:鱼、鱼片,它们的权重会更高,其他的词重要性会根据频率降低。

3、链接:<a href="www.baidu.com">鱼肉片</a>,搜索引擎会把这个URL收集并返回到链接数据库,同时记录下这个锚文本并且计算相应的权重值。

以上就是百度搜索提取页面内容的简单过程和内容,这里大家可以拓展下,思考下文章内容的原创度。

百度搜索提取内容以后,会进行指纹处理,如果两篇文章的指纹特征高度相同,就能基本判断后面收录的内容是采集的,或者是简单伪原创的。所以,大家在编辑伪原创文章的时候,就不能只是简单的段落调换,或者简单的加些链接词、语气词,这些都不足以提升原创度。

当然,百度搜索真正的提取工作要复杂得多,大家可以通过本文做个大概的了解。了解百度搜索提取页面内容的原理和过程,对于提升页面质量度有很大的帮助,比如把页面做成漂亮的图片,但只有很少的文本内容,这就不行!本文还可以帮助大家理解外链、投票等,这里不展开细说。

本文标签:蜘蛛抓取 这篇关于“百度搜索提取页面内容教程”的文章 已帮助 387 人,希望也能帮到你!

沐风博客

本站内容大部分由沐风博客原创,少部分内容来源于网络,如有侵权请与我们联系烟台网站营销,我们会及时删除! 责任编辑:沐风 | 发布时间:2022年05月11日09点51分51秒 | 本文永久地址为 http://www.tangmengyun.com/seo/3386.html

沐风工作室

--> 网站优化

友情链接:

TOP