博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
网络爬虫的作用和简单分类
阅读量:6691 次
发布时间:2019-06-25

本文共 1479 字,大约阅读时间需要 4 分钟。

1.4.1知识概述

一般会用来做数据分析,先通过对数据的清洗,抽取,转换,将数据做成标准化的数据,然后进行数据分析和挖掘,得到数据的商业价值。
网络爬虫的作用和简单分类
数据分为内部数据和外部数据
在互联网公司,不管内部数据还是外部数据,其实都是为了获取用户相关的数据。
拿到用户的行为数据之后,会分析用户。
比如说电商类网站就是为推荐商品,搜索类的网站为了精准营销(家具类) 广告联盟。
网络爬虫的作用和简单分类
公司内部数据
业务数据,公司使用BI(Business Intelligence)、CRM系统、ERP系统、邮件系统等产生的数据;
财务数据,其中包括公司的支出、采购、收入等多项与公司日常运作有关的数据;
用户数据,无论是网站、APP还是游戏,用户注册都会填写邮箱、电话、×××号码等数据,这些数据其实非常有价值,此外还要加上用户使用公司产品留下的行为数据。
历史数据,公司沉淀下来的其他各种数据。
外部数据
社交网站数据,包括微信、微博、人人网、Twitter、Facebook、LinkedIn等社交媒体上的数据。
说明:社交数据部分是可以爬取的,另外一部分是需要运营方授权的。
线下采集数据,包括Wifi热点数据、地图数据等。
说明:这一块目前做的公司比较少,但同时也比较有价值。
政府开放数据,包括企业征信数据、企业注册数据、法院公示数据、公共交通数据等。
说明:如果你想要找的话,可到对应政府网站下载。
智能设备数据,包括智能设备、传感器数据。
说明:你知道吗?一部智能手机,至少拥有8个传感设备。
网络爬虫数据,包括互联网上所有可以爬回的数据,文字、视频、图片其实也是数据,而且是非结构化数据。
企业交易数据,包括商家流水数据、支付宝交易数据、信用卡消费数据等等。
说明:目前这一部分数据是最难获取的,因为数据就是宝贵的资产。
企业开放数据,比如微博开放了商业数据API,腾讯开放了腾讯云分析SDK上报的应用数据,高德地图开放了LBS数据等等。
说明:如果想找更多的数据API,我推荐你去数据堂、聚合数据这两家网站上看一下,上面有大量的API接口。
其它数据,比如天气数据、交通数据、人口流动数据、位置数据等等。
说明:只有想不到没有弄不到。
额外扩展
大数据就是整合完公司内部外部数据,进行大数据存储,然后通过清洗,标注、去重、去噪、关联等过程可以将数据进行结构化,也可以进行大数据挖掘和数据分析,再以数据可视化呈现结果,打通数据孤岛形成数据闭环,将数据转换成“石油”和“生产资料”,最后应用到我们日常的生活、学习和工作中去。
爬虫与搜索系统的关系
网络爬虫的作用和简单分类
搜索系统的数据是爬虫爬取过来?不一定。
搜索系统可以简单的分为两类,通用搜索,站内搜索。
通用搜索:像百度,谷歌会爬取互联网上所有的数据
站内搜索:只需要业务系统的数据。
垂直搜索:行业数据和自己的数据。
总结:搜索一定会包含爬虫(除站内搜索外),爬虫爬取的数据不一定是为搜索服务。除了搜索功能以外,爬虫爬取的数据主要用来做数据分析。
爬虫的简单分类
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:
l 通用网络爬虫(General Purpose Web Crawler)
l 聚焦网络爬虫(Focused Web Crawler)
l 增量式网络爬虫(Incremental Web Crawler)
l 深层网络爬虫(Deep Web Crawler)
实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
1.4.2视频详情
网络爬虫的作用和简单分类

转载于:https://blog.51cto.com/13587708/2390398

你可能感兴趣的文章
我的友情链接
查看>>
chrome 中如何处理setCapture
查看>>
在linux下安装基于Web的监控工具:linux-dash
查看>>
MySQL5.6优化了派生子查询
查看>>
谈一谈Mybatis分页查询
查看>>
记linux shell的两个小技巧:shell数组和字符串判断
查看>>
Cisco3550交换机配置DHCP;vlan,acl经典应用
查看>>
把C#.NET程序移植到DB2上的经验浅谈(C#连接DB2可以用IBM.Data.DB2.dll)
查看>>
学焊接专业的编程爱好者应用好通用权限管理系统写出了自己工作中需要的小软件...
查看>>
rhel5+dhcp+vsftp+pxe+tftp+kickstart环境配置脚本
查看>>
不同换行符的差异处理
查看>>
解决:由于本机限制,该操作已被取消‏
查看>>
Capital One World MasterCard Cashback
查看>>
Intel(R) 82579V网卡驱动程序 for Windows Server 2003 x64
查看>>
统一一个文件中bit位 1 的个数
查看>>
nginx+keepalived以及nginx反向代理实现
查看>>
企业为什么抛弃传统电话?
查看>>
centos7.2源码安装php7.0.9和nginx1.10.3服务器
查看>>
[php]php连mysql出错:Call to undefined function mysql_connect()
查看>>
strtolower() 函数
查看>>