Menu
大数据爬虫系统软件
        数据采集是进行大数据分析的前提也是必要条件,在整个流程中占据重要地位,该软件目标是解决大数据采集阶段的数据采集,采集目标为任何互联网或软件系统数据。
系统技术架构:
      1 需要环境操作系统:centos7.2版本
      2  python3爬虫端   (python3.6.4版本)
      3  redis代理池     (redis4.0.2版本)
      4  mongdb数据库    (mongdb3.6.4版本)
      5 redis词库缓存池
      6  默认开通10个进程
爬虫操作步骤:
        1 启动代理池:  进入 /datatocrm2.2/Proxy/api目录 后台进程形式启动  apiServer.py 
        2 更新词库:    进入 /datatocrm2.2/tyc_sf/queue_waiting/suzhou/目录 吧自己的词库放入里面(txt文本形式)
        3 启动爬虫命令:进入  /datatocrm2.2/tyc_sf/目录  启动 start.py 开始爬取数据
数据管理:
   数据库查看:用mongdb命令或者工具查看爬的数据结果
   数据清洗:进入  /datatocrm2.2/tyc_sf/目录  启动 clean_tyc.py命令 清洗数据
   原始库库名称:db_tyc_dev_suzhou
   标准库名称:db_tyc_formal_suzhou
环境安装:
 
 一、安装python3.6.4
 
安装python3教程:
    
      CentOS 7.2上默认安装的python版本是2.6的,现安装Python-3.6.3
 
环境准备:
    1.安装相关依赖
 
    sudo yum install openssl-devel -y 
    sudo yum install zlib-devel -y
 
   2.安装setuptools
 
    wget  https://pypi.python.org/packages/source/s/setuptools/setuptools-9.6.tar.gz
    tar -zxvf setuptools-19.6.tar.gz 
    cd setuptools-19.6
    sudo python setup.py build 
    sudo python setup.py install
 
   三 安装python3.6.4:
 
     1 wget https://www.python.org/ftp/python/3.6.4/Python-3.6.4.tgz
     2 tar -xzvf Python-3.6.4.tgz
     3 cd Python-3.6.4    
     4 ./configure --prefix=/usr/local/python3 --enable-optimizations  
     5 make && make install
     6 ln -s /usr/local/python3/bin/python3.6 /usr/bin/python3 #建立新的软连接,指向Python-3.6.3
       ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3
     7 yum install python3-pip  安装pip3
     8 安装 redis、bs4、lxml、pymongo、threadpool、requests类库
          cd /usr/local/python3
          pip3 install redis
          pip3 install bs4
          pip3 install lxml
          pip3 install pymongo
          pip3 install threadpool
          pip3 install requests
 
       
   4、 安装webpy-py3
           cd /datatocrm2.2/webpy-py3
           python3  setup.py  install
           python3 setup.py build
 
二、安装redis4.0.2:
 
教程:https://blog.csdn.net/diweikang/article/details/78784631
 
1 、下载:redis-4.0.2.tar.gz
    wget http://download.redis.io/releases/redis-4.0.2.tar.gz
 
2、 解压:tar -xzvf redis-4.0.2.tar.gz
 
3、进入目录:cd redis-4.0.2
 
4、安装 make  make install  (默认安装在 /usr/local/bin目录下)
 
5、cp /home/redis-4.0.2/utils/redis_init_script /etc/rc.d/init.d/redis(将启动脚本复制到/etc/rc.d/init.d/目录下,命名为redis)
   vi /etc/rc.d/init.d/redis 修改以后台运行的方式执行:$EXEC $CONF &
 
6、vi /etc/rc.d/init.d/redis 在监本第一行后面添加一行内容为:#chkconfig: 2345 80 90    如果不添加,在注册服务的时候会提示:service redis does not support chkconfig
  
7、将redis注册成为服务:chkconfig --add redis
 
8 在/etc目录下:mkdir redis  创建redis文件夹
 
9 cp /home/redis-4.0.2/redis.conf /etc/redis/6379.conf (先在/etc目录下:mkdir redis  创建redis文件夹)
 
10、 防火墙开启对应端口:vi /etc/sysconfig/iptables 添加如下:
  #redis端口
  -A INPUT -m state ?state NEW -m tcp -p tcp ?dport 6379 -j ACCEPT (然后 重启防火墙  service iptables restart)
 
  
11、修改/etc/redis/6379.conf的 redis配置文件6379.conf:
     daemonize no 改为daemonize yes
     pidfile /var/run/redis.pid 改为pidfile /var/run/redis_6379.pid
     注释掉绑定的主机,否则客户端无法连接 #bind 127.0.0.1  (一定是注释掉 不是修改为0.0.0.0)
     protected-mode yes 改为 protected-mode no
 
12、启动redis服务:service redis start
 
13、将redis添加到环境变量中 vi /etc/profile
          
          export PATH=$PATH:/user/local/bin
 
          使配置生效:source /etc/profile
 
14 停止服务:service redis stop  启动:service redis start
 
二、客户端连接测试:
 
 1、本机连接: redis-cli
 2、远程连接:redis-cli -h 你的IP -p 6379 
 3 、set  test  123
 4、 get  test
 5、 keys * 输出所有
 
三、安装mongdb3.6.4:
 
安装mongdb 3.6
1 vim /etc/yum.repos.d/mongodb-org-3.6.repo   (没有就创建一个)打开mongodb-org-3.6.repo文件添加以下内容)
 
[mongodb-org-3.6]
name=MongoDB Repository
baseurl=https://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/3.6/x86_64/
gpgcheck=1
enabled=1
gpgkey=https://www.mongodb.org/static/pgp/server-3.6.asc
 
2 yum -y install mongodb-org  (采用yum安装mongdb数据库)
 
3 安装后 查看mongo安装位置:whereis mongod
 
4 查看修改配置文件 :vim /etc/mongod.conf
 
5 启动mongodb:systemctl start mongod.service
 
6 停止mongodb :systemctl stop mongod.service
 
8:查到mongodb的状态:systemctl status mongod.service
 
9.外网访问需要关闭防火墙:
 CentOS 7.0默认使用的是firewall作为防火墙,这里改为iptables防火墙。
 systemctl stop firewalld.service #停止firewall
 systemctl disable firewalld.service #禁止firewall开机启动
 
10.设置开机启动
  systemctl enable mongod.service
 
11.启动Mongo shell
命令:mongo 查看数据库:show dbs
 
12.设置mongodb远程访问:
  编辑/etc/mongod.conf,修改bindIp:0.0.0.0并重启mongodb.
  vim /etc/mongod.conf
 
13 重启mongodb:
systemctl restart mongod.service
 
mongod安装目录:usr/bin/mongod 
数据库存储目录:dbpath=/data/db 
配置文件:etc/mongod.conf 
 
14 登陆mongodb:mongo
 
15 添加账号密码:
 
     mongo  #登陆
     user admin #切换到admin数据库
     步骤三:创建管理员账号
     db.createUser({user:'admin_264',pwd:'823888ws',customData:{"desc":"This user is for administrators"},roles:[{role:'userAdminAnyDatabase',db:'admin'}]}) 
 
16 验证用户是否创建成功: db.auth("admin_264","23888ws") 
 
17 :杀掉进程,重启mongoDB服务
   ps -ef | grep mongod
kill -9 pid
18 带认证模式开启Mongod
 
   mongod --auth --config /etc/mongod.conf
 
 
二、卸载MONGODB(教程使用)
 
1、停止服务
 
  service mongod stop
 
2、删除安装的包
 
  yum erase $(rpm -qa | grep mongodb-org)
 
3、删除数据及日志
 
  rm -r /var/log/mongodb
 
  rm -r /var/lib/mongo
 
 
 四、运行爬虫:
 
1进入 cd /home/datatocrm2.2/Proxy/api
 
  启动代理:nohup python3 apiServe.py
 
2 进入   cd /home/datatocrm2.2/tyc_sf
 
   启动爬虫:python3 start.py beijing
 
 五、前端系统php:
 
centos6.9+phpstudy(php 5.5.10版本)+安装mongdb扩展:
    
   1 phpinfo() 查看自己的PHP版本、NTS还是TS、x86还是x64
   2 wget http://pecl.php.net/get/mongo-1.6.15.tgz  #下载mongo-1.6.15.tgz
【如果下载安装有问题,直接用datatocrm2.2目录下的mongo-1.6.15】
   3 tar  zxvf mongo-1.6.15.tgz  #解压
   4 cd mongo-1.6.15 #进入mongo-1.6.15
 
   5 修改权限mongo-1.6.15
 
     chmod 777 /home/mongo-1.6.15/ -R;
     chmod 777 /home/mongo-1.6.15/*;
 
chmod 777 /phpstudy/www/ -R
chmod 777 /phpstudy/www/*
 
   6 ./configure --with-php-config=/phpstudy/server/php/bin/php-config  (路径是phpstudy的安装路径)
   7 make  #编译
   8 make install #安装,安装完之后的界面是这样的。
   9 vi /phpstudy/server/php/etc/php.ini 
   10 #编辑,在最后加上这么一行代码:extension="mongo.so"
   11 phpstudy restart #重启phpstudy
   12 phpinfo();查看mongdb是否安装成功
 
【 /phpstudy/server/php/lib/php/extensions/no-debug-non-zts-20121212/】
 
 六、常见问题:
 
 问题1:MySQL启动出现The server quit without updating PID file错误解决办法
 
 解决办法:将 /etc/mysql 下的 my.cnf 文件删除,再次启动MySQL服务
 
软件下载   大数据爬虫系统http://filesearch.ixiera.com/pc.zip