网站静态页面天生及网站数据收罗的攻防

[复制链接]
查看750 | 回复0 | 2019-6-2 10:11:40 | 显示全部楼层 |阅读模式
本着互联网共享主义精力,特写此文献给建站新手,授人以鱼,不如授人以渔,本文所讲的只是方法和原理,盼望各人看完此文,可以或许从中得到些资助和开导。本文从一个ASP步伐员的角度用大量实例祥细先容了动态网站怎样天生静态页面原理,又从一个收罗步伐开辟者的角度去祥细先容了网站数据收罗的原理及功防计谋。关于网站天生静态页面,为了让本文读者轻易明白,文内枚举了现在常用的多种天生静态页面的方法,此中用了许多的实例代码举行阐明。关于网站数据收罗攻防,作者自己是一个收罗步伐的开辟者,同时作者也网络研究了多种收罗步伐,枚举了现在国内比力盛行的几种防收罗计谋,并对每种计谋作了简朴客观的分析评价,盼望能给广大站长们提供一些资助。此章节也把作者原创的防收罗方法奉献给各人,目地是为了让各人相识,防收罗,不防搜刮引擎,是可行的,有用的。声明:盼望各位朋侪转载时,不要把原有作者版权去掉,谢谢互助。由于本人写作程度有限,写的欠好的地方,还请各人多多包容,如要品评或意见,请加我QQ。现在许多人都开始注意动态页面天生HTML页了,但选择哪种天生HTML的方法和防收罗却不防搜刮引擎的题目却常常困扰各人。办理此题目则是本文产生的缘故原由。起首祥细说一下常用的几种天生HTML的方法:天生HTML方法重要步调只有两个:一、获取要天生的html文件的内容二、将获取的html文件内容生存为html文件我在这里重要阐明的只是第一步:怎样获取要天生的html文件的内容:现在常用获取html文件的内容的方法有几下几种:1、str="内容"str=str&" 内容 数据库读取内容........."这种方法与是在脚本内写要天生的html内容,不太方便预览天生页面的内容,无法可视化结构页面,更改html模板时会更加复杂。用这种方法的人许多,但我感觉这种方法是最不方便的。2、制作单独的HTML模板页,动态的内容用特定的字符作为标志(如:有人用$title$标志为网页标题),用ADODB.Stream大概Scripting.FileSystemObject将其模板内容载入,然后再用更换方法把原先定好的标志更换为动态内容(如:Replace(载入的模板内容,"$title$",rs("title" ) ) )。
现在防收罗的方法有许多种,先先容一下常见防收罗计谋方法和它的毛病及收罗对策:一、判定一个IP在肯定时间内对本站页面的访问次数,假如显着凌驾了正凡人欣赏速率,就拒绝此IP访问毛病:1、此方法只实用于动态页面,如:asp\jsp\php等...静态页面无法判定某个IP肯定时间访问本站页面的次数2、此方法会严峻影响搜刮引擎蜘蛛对其收录,由于搜刮引擎蜘蛛收录时,欣赏速率都会比力快而且是多线程。此方法也会拒绝搜刮引擎蜘蛛收录站内文件收罗对策:只能放慢收罗速率,大概不采发起:做个搜刮引擎蜘蛛的IP库,只答应搜刮引擎蜘蛛快速欣赏站内内容。搜刮引擎蜘蛛的IP库的网络,也不太轻易,一个搜刮引擎蜘蛛,也不肯定只有一个固定的IP地点。批评:此方法对防收罗比力有用,但却会影响搜刮引擎对其收录。二、用javascript加密内容页面毛病:此方法实用于静态页面,但会严峻影响搜刮引擎对其收录环境,搜刮引擎收到到的内容,也都是加密后的内容收罗对策:发起不采,如非要采,就把解暗码的JS脚本也采下来。发起:现在没有好的改良发起批评:发起指望搜刮引擎带流量的站长不要利用此方法。三、把内容页面里的特定标志更换为”特定标志+隐蔽版权笔墨“毛病:此方法毛病不大,仅仅会增长一点点的页面文件巨细,但轻易反收罗收罗对策:把收罗来的含有隐蔽版权笔墨内容的版权笔墨替掉,或更换成本身的版权。发起:现在没有好的改良发起批评:本身感觉实用代价不大,就算是加上随机的隐蔽笔墨,也即是多此一举。四、只答应用户登岸后才可以欣赏毛病:此方法会严峻影响搜刮引擎蜘蛛对其收录收罗对策:现在掉队已经有人发了对策文章 ,详细对策就看这个吧《ASP小偷步伐怎样使用XMLHTTP实现表单的提交以及cookies或session的发送》发起:现在没有好的改良发起批评:发起指望搜刮引擎带流量的站长不要利用此方法。不外此方法防一样平常的收罗步伐,照旧有点结果的。五、用javascript、vbscript脚本做分页毛病:影响搜刮引擎对其收录收罗对策:分析javascript、vbscript脚本,找出其分页规则,本身做个对应此站的分页聚集页即可。发起:现在没有好的改良发起批评:感觉懂点脚本语言的人都能找出其分页规则六、只答应通过本站页面毗连检察,如:Request.ServerVariables("HTTP_REFERER")毛病:影响搜刮引擎对其收录收罗对策:不知道能不能模仿网页泉源。。。。现在我没有对应此方法的收罗对策发起:现在没有好的改良发起批评:发起指望搜刮引擎带流量的站长不要利用此方法。不外此方法防一样平常的收罗步伐,照旧有点结果的。从以上可以看出,现在常用的防收罗方法,要么会对搜刮引擎收录有较大影响,要么防收罗结果欠好,起不到防收罗的结果。那么,另有没有一种有用防收罗,而又不影响搜刮引擎收录的方法呢?那就请继承往下看吧,出色的地方立刻呈献给各人。下面就是我的防收罗计谋,防收罗而又不防搜刮引擎从前面的我讲的收罗原理各人可以看出,绝大多数收罗步伐都是靠分析规则来举行收罗的,如分析分页文件名规则、分析页面代码规则。一、分页文件名规则防收罗对策大部门收罗器都是靠分析分页文件名规则,举行批量、多页收罗的。假如别人找不出你的分页文件的文件名规则,那么别人就无法对你的网站举行批量多页收罗。实现方法:我以为用MD5加密分页文件名是一个比力好的方法,说到这里,有人会说,你用MD5加密分页文件名,别人根据此规则也可以模仿你的加密规则得到你的分页文件名。我要指出的是昨们加密分页文件名时,不要只加密文件名变革的部门假如I代表分页的页码,那么昨们不要如许加密page_name=Md5(I,16)&".htm"最好给要加密的页码上再跟进一个或多个字符,如:page_name=Md5(I&"恣意一个或几个字母",16)&".htm"由于MD5是无法反解密的,别人看到的会页字母是MD5加密后的效果,以是加人也无法知道你在 I 背面跟进的字母是什么,除非他用暴力****MD5,不外不太实际。二、页面代码规则防收罗对策假如说昨们的内容页面无代码规则,那么别人就无法从你的代码中提取他们所必要的一条条内容。以是昨们要的这一步做到防收罗,就要使代码无规则。实现方法:使对方必要提取的标志随机化1、定制多个网页模板,每个网页模板里的紧张HTML标志差别,出现页面内容时,随机选取网页模板,有的页面用CSS+DIV结构,有的页面用table结构,此方法是贫苦了点,一个内容页面,要多做几个模板页面,不外防收罗自己就是一件很烦琐的事变,多做一个模板,能起到防收罗的作用,对许多人来说,都是值得的。2、假如嫌上面的方法太贫苦,把网页里的紧张HTML标志随机化,也可以。做的网页模板越多,html代码越是随机化,对方分析起内容代码时,就越贫苦,对方针对你的网站专门写收罗计谋时,难度就更大,在这个时间,绝大部门人,都会知难而退,由于这此人就是由于懒,才会收罗别人网站数据嘛~~~再说一下,现在大部门人都是拿别人开辟的收罗步伐去收罗数据,本身开辟收罗步伐去收罗数据的人究竟是少数。另有些简朴的思绪提供给各人:1、把对数据收罗者紧张,而对搜刮引擎不紧张的内容用客户端脚本表现2、把一页数据,分为N个页面表现,也是加大收罗难度的方法3、用更深层的毗连,由于现在大部门收罗步伐只能收罗到网站内容的前3层,假如内容地点的毗连层更深,也可以制止被收罗。不外如许大概会给客户造成欣赏上的未便。如:大多网站都是 首页----内容索引分页----内容页假如改成:首页----内容索引分页----内容页入口----内容页注:内容页入口最好能加上主动转入内容页的代码实在,只要做好防收罗的第一步(加密分页文件名规则),防收罗的结果就已经不错了,照旧发起两条反收罗方法同时利用,给收罗者增长收罗难度,使得他们知难页退。至此,全文完,接待各人在此讨论与此相干技能,谢谢!
文章泉源http://www.bjkeywordseo.com
楼主热帖

5

主题

20

帖子

142

积分

普通用户

Rank: 1

积分
142