有人说收集内容对搜索引擎不是很友好,并且要获得排名并不容易。这绝对是不可避免的。
20181021_5bcc174a564eb.jpg对于大多数网站,网站上收集的内容不得与UGC和精心编辑的内容一样好。但是,搜索引擎现在可以获得的原始内容量不如以前那么好。毕竟,内容制作平台已经转移,并没有集中在网站上。其他几个搜索引擎仍然互相攻击,更不用说小网站了。
因此,收集的内容仍然有效,但收集内容后的处理成本越来越高。
收集内容的后期处理
担心收集内容不佳,或容易被K,主要是看如何后期处理内容。例如:
例如,从沃尔玛拿一篮子奇异果并将其放入家乐福完好无损,最多只能是原价,因为奇异果或奇异果,货物保持不变。但是将猕猴桃挤成果汁(形态变化),加一些水瓶(粒度变化),然后把它放在711卖(平台变化),价格可以乘以(价值增益)
为什么?
因为形状已经改变,果汁是不同于水果的商品,果汁更容易吸收。
由于平台发生了变化,711定价本身略高于沃尔玛家乐福。
因为粒度已经改变,生活中有两个,两个,三个,三个东西
前三个的变化导致价值翻倍
如果将“获取内容”与“猕猴桃”进行比较,则“收集内容”的后处理策略如下:
形成
组织内容的方式有很多种,无论是相同的内容被分解,分发到多个地方,还是聚合到一个地方的多个相关内容,或者其他方式,都可以使搜索引擎更容易被接受。
平台
该行业有专业化。将新浪的一些垂直行业内容放到相应行业的垂直网站上更为合适。将专业内容放在专业网站上。
粒度
爬行的内容相同,粒度越细,搜索引擎的原创性就越高。举一个极端的例子,星座股票取名为八字算命生命 – 八字风水算命qq图片动态图片.这种类型的站,哪个内容不重复?
获得
收集的目的是完成内容的漏洞,使同一主题的内容比其他主题更丰富和更丰富,从而获得页面内容的价值。
收集内容的完整过程
关于“收集内容处理”,从爬行到在线过程,我们必须解决以下问题:
内容来自哪里?
如何捕捉内容?
如何收集内容?
内容来自哪里?
对于严肃的车站和严肃的车站,收集和购买专业数据更为合适。
目标集合仅捕获特定范围的特定网站,与此网站的内容漏洞高度相关。
对于不公平的站点,选择的范围要多得多,触点的内容可以掌握,注意数量,所以没有必要限制某些站点的爬行,有些人称之为泛集
设置几个主题,直接抓取各种大平台的搜索结果。大平台是什么意思?大量内容集中的地方:各种搜索引擎,各种门户网站,今日头条,微信微博,优酷土豆等。
如何捕捉内容?
定向收购:
稍微,通常如何抓住它。
泛集合:
目标抓取工具仅限于网页模板,并添加了多种内容分析算法来提取内容并更改为常规抓取工具。
很多浏览器插件,比如Evernote,有很多类似“只看文本”的功能,点击只显示当前浏览页面的正文信息,很多人已将这些算法移植到python,php ,java等。在语言中,搜索是。
如何收集内容?
两个连续的过程:
处理原始内容
组织处理过的内容
处理原始内容
根据百度专利,搜索引擎根据文本判断内容的相似性,并根据html的dom节点的位置和顺序进行判断。如果两个网页的html结构相似,则可以将其视为重复内容。
因此,收集的内容不能直接使用,有必要清理源代码。每个人都有不同的方式。个人通常会做以下事情:
Html清理
保留主标签:p,img
从标签中删除不重要的属性
a=re.sub(r’<(?p | img |/p)[^<>] *?>’,“,content).strip()
b=re.sub(r’< p [^>] *?>’,’< p>’,a)
Newcontent=re.sub(r’alt='[^’] *?”,’alt=’%s”%title,b).lower()
删除中文字符< 100字
Text=re.sub('[s +。/_,$%^ *(+”] + | [+——!〜@#¥%.& *( )“”《》] +’。decode(’utf8’),”。decode(’utf8’),newcontent)
Text2=re.sub(’< [^>] *?>’,“,text)
Words_number=len(text2)
删除垃圾邮件
如“XXX网络小编:XXX”,邮箱地址等。
组织处理过的内容
事实上,就线条形式的变化而言,我之前已经写过几个关于“组织内容”的方法,请参阅:[SEO]如何扭转网站的内容?