Hadoop通过SHell脚本定时采集数据日志到HDFS

一、创建shell脚本

# 在hadoop的/export/data目录下创建

cd /export/data/

#然后在/export/data/下

vi uploadHDFS.sh

实现的代码(有些要自己修改成自己的目录和环境变量目录):

#!/bin/bash

export HADOOP_HOME=/export/servers/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

hadoop_log_dir=/export/servers/hadoop/logs/
log_toupload_dir=/export/data/logs/toupload/
date=$(date +"%Y_%m_%d_%H_%M")
hdfs_dir=/hadoop_log/$date/

mkdir -p "$log_toupload_dir"

if [ -d "$hadoop_log_dir" ]; then
    echo "Moving Hadoop logs to $log_toupload_dir"
    find "$hadoop_log_dir" -name "*.log" -exec cp {} "$log_toupload_dir" \;
    echo "Hadoop logs moved successfully."
else
    echo "ERROR: Hadoop log directory $hadoop_log_dir not found!"
    exit 1
fi

echo "Creating HDFS directory: $hdfs_dir"
if ! hdfs dfs -mkdir -p "$hdfs_dir"; then
    echo "ERROR: Failed to create HDFS directory"
    exit 1
fi

for fileName in "$log_toupload_dir"/*.log; do
    if [ -f "$fileName" ]; then
        echo "Uploading $fileName to $hdfs_dir"
        if ! hdfs dfs -put "$fileName" "$hdfs_dir"; then
            echo "ERROR: Failed to upload $fileName"
            exit 1
        fi
        echo "Uploaded: $fileName"
    fi
done

echo "Deleting temporary directory: $log_toupload_dir"
rm -rf "$log_toupload_dir"

echo "All operations completed successfully."
exit 0

 二、执行shell脚本

进入hadoop1的/export/data/目录 确保hadoop集群处于启动状态,执行

sh uploadHDFS.sh 

 

三、验证hadoop日志文件是否上传成功

在hdfs的web ui上查看

 

四、 定时执行shell脚本文件

通过Linux提供的定时任务工具Crontab定时运行到Shell脚本文件uploadHDFS.sh,实现周期性的将hadoop的日志文件上传到HDFS

1、检查以下命令是否安装了Crontab

rpm -qa | grep crontab

 

如果像我的一样显示了版本号 代表着已经安装了Crontab  如果没有安装  就使用以下命令进行安装

yum -y install vixie-cron

yum -y install crontabs

2、启动Crontab

systemctl start crond      # 启动服务
systemctl enable crond    # 设置开机自启

service crond start       # 旧版系统
chkconfig crond on        # 设置开机自启(旧版)

  • 如果服务未运行,输出会显示 inactive (dead)

  • 如果服务已运行,输出会显示 active (running)

 

 3、为uploadHDFS.sh添加可执行权限

进入Hadoop1的/export/data/目录,为Shell脚本uploadHDFS.sh添加可执行权限,这样做的目的是通过Crontab的定时任务运行Shell脚本文件uploadHDFS.sh

chmod 777 /export/data/uploadHDFS.sh4

 4、配置定时任务

#在hadoop1上执行

crontab -e

编辑Crontab文本,配置定时任务,在Crontab文件中添加以下内容

*/10   * * * * /export/data/uploadHDFS.sh

 使用crontab查看当前定时任务

#查看当前定时任务

crontab -l

# 删除定时任务

crontab -r

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值