chase.sh

#!/bin/bash
function rmfiles()
{
# &#21024;&#38500;&#26080;&#29992;&#25991;&#20214;&#20889;&#36825;&#37324;
rm -f  ./userdata ./tmp/userinfo_* 
for files in $(ls | awk '{for(i=1;i<=NF;i++){print $i}}' | grep 'file' | grep -v 'file$')
do 
# echo "# &#21024;&#38500; $files" 
rm -f $files
done 
}
rmfiles
page=1 
time=$(date | sed -e 's/  / /g' -e 's/ /:/g' -e 's/::/:/g' -e 's/&#26085;//g' -e 's/&#24180;//g' -e 's/&#26376;//g' -e 's/&#26143;&#26399;//g')
function getconfig()
{
cat config | grep -v '^#' | grep "$1" | sed -e 's/=/ /g' | awk '{print $2}'
}
max=$(getconfig search_like_max)
max_page=$(getconfig search_like_page)
# echo "# &#26368;&#22823;&#36817;&#20284;&#29992;&#25143;&#21517;&#25628;&#32034;&#25968;: $max"
# echo "# &#26368;&#22823;&#36817;&#20284;&#29992;&#25143;&#21517;&#29228;&#21462;&#39029;&#25968;: $max_page"
url="https://so.csdn.net/api/v3/search?q=$1&t=userinfo&p=$page&s=0&tm=0&ft=0&platform=pc" 
function exit_search()
{
query=$1    
curl -s --retry 1024 -m 3 "https://so.csdn.net/api/v3/search?q=$query&t=userinfo&p=1&s=0&tm=0&ft=0&platform=pc" -H "so.csdn.net" -o ./file  
cat file | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}' | grep 'total_page' | sed -e 's/"//g' -e 's/:/ /g' -e 's/\./ /g' | awk '{print $2}'
rm -f  file
}
# &#21021;&#22987;&#31532;&#19968;&#39029;&#24320;&#22987;
lastpage=$(exit_search $1)
# echo "# &#20849; $lastpage &#39029;&#29992;&#25143;&#25968;&#25454;"

function dosearch(){
max_page=$1
lastpage=$2
query=$3
echo "# &#25628;&#32034;&#29992;&#25143;&#24320;&#22987;"
for page in `seq 1 $lastpage`
do
# echo "# &#31532; $page &#39029;"
if [ $page == $max_page ]
then
echo "# &#36798;&#21040;&#25351;&#23450;&#26368;&#22823;&#29228;&#21462;&#39029;&#25968;" 
break
fi 
curl -s --retry 1024 -m 3 "https://so.csdn.net/api/v3/search?q=$query&t=userinfo&p=$page&s=0&tm=0&ft=0&platform=pc" -H "so.csdn.net" -o ./file_$page   
done 
}
function deal()
{
echo "# &#25968;&#25454;&#22788;&#29702;&#24320;&#22987;"    
for files in $(ls | awk '{for(i=1;i<=NF;i++){print $i}}' | grep 'file' | grep -v 'file$')
do
lenth_file=${#files}
if [ $lenth_file != 0 ]
then 
# echo "# file=$files"
cat $files | sed -e 's/ /++++/g' | sed -e 's/"birthday"/ "birthday"/g' | awk '{for(i=1;i<=NF;i++){print $i}}' | grep  'gender' | sed -e 's/++++/ /g' >> userdata
rm -f  $files
else 
# echo "# &#21024;&#38500; &#26080;&#25928;&#25991;&#20214; $files"
rm -f  $files
fi
done 
}
dosearch $max_page $lastpage $1 &
wait
echo "# &#25968;&#25454;&#25628;&#32034;&#23436;&#25104;"
deal
function findmore()
{
    null='null'
# echo "# &#25628;&#32034;&#24320;&#22987;"
    search_id=$1
    lenth=${#search_id}
    if [ $lenth != 0 ]
    then 
    curl -s -m 3 --retry 1024 "https://blog.csdn.net/$1" -o ./tmp/userinfo_$search_id
    file=$(ls ./tmp | grep "userinfo_$search_id")
    lenth_file=${#file}
    if [ $lenth_file == 0 ]
    then 
    echo 'null'
    exit
    else  
    ip=$(cat ./tmp/userinfo_$search_id | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}' | grep 'region' | grep 'ip' | sed -e 's/"//g' -e 's/region:{ip://g')
    location=$(cat ./tmp/userinfo_$search_id | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}' | grep '&#23646;&#22320;' | grep -v -E 'msg|span|div' | sed -e 's/&#65306;/ /g' -e 's/"//g' | awk '{print $2}')
    regtime=$(cat ./tmp/userinfo_$search_id | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}' | grep 'registrationTime' | sed -e 's/"//g' -e 's/registrationTime://g')
    #
    test_ip=${#ip}
    test_regtime=${#regtime}
    if [ $test_ip == 0 ]
    then 
    ip=$(cat ./tmp/userinfo_$search_id  | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}'  | grep 'region' | sed -e 's/:/ /g' | sed -e 's/"//g' | awk '{print $NF}' | grep '[0-9]\.[0-9]')
    fi 
    if [ $test_regtime == 0 ]
    then 
    regtime=$(cat ./tmp/userinfo_$search_id | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}'  | grep 'registration' | sed -e 's/"//g' -e 's/:/ /g' | awk '{print $2}') 
    fi 
    #
    school=$(cat ./tmp/userinfo_$search_id | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}' | grep 'school' | sed -e 's/"//g' -e 's/:/ /g' |  awk '{print $2}' | sed -e 's/null/unknown/g')
    company=$(cat ./tmp/userinfo_$search_id | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}' | grep -i 'company' | grep -v -E -i 'has|module' | sed -e 's/"//g' -e 's/:/ /g' | awk '{print $2}'  | sed -e 's/null/unkonwn/g')
    echo "ip:$ip,&#23646;&#22320;:$location,&#27880;&#20876;&#26102;&#38388;:$regtime,&#23398;&#26657;:$school,&#20225;&#19994;:$company"
    rm -f ./tmp/userinfo_$search_id
    fi 
    else
    echo 'null'
    exit
    fi 
}

function searchstart()
{
  echo "# &#24320;&#22987;&#35299;&#26512; "
  echo "# &#20849; $allline &#34892;"

for line in `seq 1 $allline`
do 
{
if [ $line == $max ]
then 
echo "# done"
fi
# 
data=$(head -n $line ./userdata | tail -n 1)
search_name=$(echo "$data" | sed -e 's/ /++++/g' | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}' | grep 'username' | sed -e 's/"//g' -e 's/:/ /g' | awk '{print $2}' | sed -e 's/++++/ /g')
username=$search_name
#
nickname=$(echo "$data" | sed -e 's/ /+++---/g' | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}'  | grep 'nickname' | sed -e 's/<\/em>//g' -e 's/<em>//g' -e 's/"//g' -e 's/:/ /g' | awk '{print $2}' | sed -e 's/+++---/ /g')
email=$(echo "$data" | sed -e 's/ /+++---/g' | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}'  | grep 'email' | sed -e 's/""/unkonwn/g' -e 's/"//g' -e 's/:/ /g' | awk '{print $2}' | sed -e 's/+++---/ /g')
position=$(echo "$data" | sed -e 's/ /+++---/g' | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}'  | grep 'position' | sed -e 's/""/unkonwn/g' -e 's/"//g' -e 's/:/ /g' | awk '{print $2}' | sed -e 's/+++---/ /g')
gender=$(echo "$data" | sed -e 's/ /+++---/g' | sed -e 's/,/ /g' | awk '{for(i=1;i<=NF;i++){print $i}}'  | grep 'gender' | sed -e 's/""/unkonwn/g' -e 's/"//g' -e 's/:/ /g' | awk '{print $2}' | sed -e 's/+++---/ /g')
#
useful_data="username:$username,nickname:$nickname,email:$email,&#32844;&#20301;:$position,&#24615;&#21035;:$gender"
usermore=$(findmore $search_name)
echo "$time:$useful_data,$usermore" >> ./bak/log
} &
done
wait
}

dir_userdata=$(ls | grep 'userdata')
test_dir_userdata=${#dir_userdata}
if [ $test_dir_userdata != 0 ]
then 
allline=$(cat userdata | wc | awk '{print $1}')
cat userdata | grep 'gender' | sort | uniq > swap 
cat swap > userdata
rm -f swap
searchstart &
wait
else 
echo "# &#26410;&#25214;&#21040; $1"
fi 
rmfiles