博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫学习笔记(一)初识爬虫
阅读量:5259 次
发布时间:2019-06-14

本文共 1300 字,大约阅读时间需要 4 分钟。

什么是爬虫?

 

爬虫是什么呢,就是地上爬的小虫子,就是爬虫咯。呵呵,开个玩笑,一般说的爬虫都是网络爬虫。那什么是网络爬虫呢,百度百科的解释是这样子的:

网络爬虫(又被称为网页,网络机器人,在社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取信息的程序或者脚本。另外一些不常使用的名字还有、自动索引、模拟程序或者。

额,这一大坨,总结来说就一句话,就是从某个网站上获取某些你想要数据,然后保存起来。

爬虫能干嘛?

 

爬虫可以帮你爬到你想要的东西,比如说你想下载某个网站上面的图片、小视频、文章、文件,或者说你们公司想获取到对手公司网站上的一些数据用来分析市场,或者想要获取某一类网站用户的行为,用来分析用户的以后的走向,都可以用爬虫来获取到数据。再比如说你要做个什么内容类的app,类似今日头条的,那它里面的这些内容从哪里来的,它就是用爬虫,爬各种网站上热点新闻、八卦信息等等,再经过自己的加工放给用户去看。

爬虫的原理和实质

 

咱们要从一个网站下载一个图片的话怎么办,要浏览器里面打开这个网站, 然后右键保存图片到本地。

那爬虫呢,就是写代码把上面的这个过程自动化,自动帮咱们做这个操作,不需要咱们再手动点了。这就是爬虫的原理。

爬虫的实质呢,就是写代码发http请求(浏览器里面打开发送的都是http请求),然后获取到response,咱们再从response里面找到想要的数据,存储到本地。

什么是爬虫协议?

 

爬虫协议就是你想用爬虫爬我的网站,那么你得听我的,哪些你能爬,哪些你不能爬。

怎么查看一个网站的爬虫协议呢,就在这个网站的域名后面加上robots.txt

比如说下面有:jd、百度、淘宝的爬虫协议

jd:https://www.jd.com/robots.txt

淘宝的:https://www.taobao.com/robots.txt

百度的:https://www.baidu.com/robots.txt

如果你要爬的网站域名加上robots.txt是404,那你就可以随心所欲的爬了。

不过就算爬虫协议里面写了,你也可以不遵守,但是也得注意一下,有的公司发现的话,会起诉的。比如说前几年著名的百度控诉360爬虫违反爬虫协议,赔偿70w。

爬虫协议里面有这么几个字段:

        User-agent:*
       这个字段的意思是允许哪个引擎的爬虫获取数据
       * 代表所有类型的爬虫都可以
       Disallow:/admin/
        这个字段代表爬虫不允许爬哪个路径下面的数据,如果是/的话,就代表所有的路径下面的数据都不能爬。

什么是反爬虫?

 

因为会有一些恶意的人,恶意的去用爬虫爬咱们的系统,获取一些数据用来做一些不好的事情,这样就会咱们的网站造成危害。

反爬虫就是干这个事的,网站后台有程序专门检测发这个请求是爬虫发的,还是用户的正常请求(发请求就是打开一个页面),如果是爬虫发的话,那么就不给它返回数据,这就是反爬虫。

当然有反爬虫那就有针对反爬虫的策略,就是看谁技术高低的问题了~

转载于:https://www.cnblogs.com/chunyanxu/p/8732758.html

你可能感兴趣的文章
iOS-Senior17-UIView动画
查看>>
#undef
查看>>
CefSharp v62修改,支持.net4.0
查看>>
Excel 常用设置
查看>>
第3章 机器学习的典型应用 3-5 典型应用自然语言处理和图像识别
查看>>
LeetCode Minimum Cost For Tickets
查看>>
15_android实现多线程下载_问题说明
查看>>
10_传智播客iOS视频教程_@synthesize
查看>>
Netbeans上调试Maven工程
查看>>
vs2017 xamarin.ios 使用支付宝支付
查看>>
前端的一些工具
查看>>
Ruby学习笔记-正则表达式
查看>>
java继承覆盖与向上转型,权限
查看>>
jQuery——类的添加与删除
查看>>
Git——基本操作
查看>>
Share Beers
查看>>
python--socket/Socketerver并发/udp
查看>>
原创:Mybatis批量插入转换成list集合的问题以及解决方案(转载请注明出处,谢谢!)...
查看>>
《CoderXiaoban团队》第一次作业:团队亮相
查看>>
python自动化之调试
查看>>