Crawl_51luxu.py

from selenium import webdriver
import time, re
from bs4 import BeautifulSoup
import pyautogui
from selenium.webdriver.support.ui import WebDriverWait
from selenium.common.exceptions import TimeoutException
import pyperclip
import os

# &#20027;&#35201;&#21151;&#33021;&#23601;&#26159;&#35775;&#38382;300mium&#25152;&#26377;&#24433;&#29255;&#35814;&#24773;&#39029;&#65292;&#28982;&#21518;&#25384;&#20010;&#19979;&#36733;&#23553;&#38754;
class Crawl_51luxu:
    def main(self, Dir='F:\\pic\\', page=1, category='300MIUM'):
        current_path = os.getcwd().replace('\\', '/') + '/'
        # custom_path = 'F:\\pic\\300MIUM\\'
        custom_path = Dir + category + "\\"
        chrome_opts = webdriver.ChromeOptions()
        chrome_opts.add_argument("--headless")
        chrome_opts.add_experimental_option(
            'excludeSwitches', ['enable-logging'])
        url = 'https://www.51luxu.com/category/sresource/' + category + '/page/' + str(page)
        def open_browser(url):
            driver = webdriver.Chrome(options=chrome_opts)
            driver.get(url)
            return driver

        def scrapy(driver):
            if not os.path.exists(Dir):
                os.mkdir(Dir)
            if not os.path.exists(custom_path):
                os.mkdir(custom_path)
            Exist = []
            if os.path.exists(custom_path + 'history.txt'):
                with open(custom_path + 'history.txt','r+') as f:
                    lines = f.readlines()
                    for line in lines:
                        Exist.append(line.replace("\n",""))
                    f.close()
            # &#20174;history&#20013;&#35835;&#20837;&#21382;&#21490;&#30340;&#25152;&#19979;&#36733;&#30340;&#22270;&#29255;&#30340;&#21517;&#23383;&#65292;&#20197;&#20813;&#37325;&#22797;&#19979;&#36733;
            # &#36825;&#19968;&#27493;&#20027;&#35201;&#26159;&#20026;&#20102;&#65292;&#24403;&#25105;&#31579;&#36873;&#22270;&#29255;&#26102;&#65292;&#30475;&#21040;&#22909;&#30475;&#30340;&#35201;&#20445;&#30041;&#65292;&#30475;&#21040;&#19981;&#22909;&#30475;&#30340;&#35201;&#21024;&#38500;
            # &#37027;&#20040;&#35835;&#21462;&#25991;&#20214;&#21015;&#34920;&#23601;&#20081;&#20102;&#22871;&#20102;&#65292;&#25152;&#20197;&#25226;&#21382;&#21490;&#19979;&#36733;&#20445;&#23384;&#22312;txt&#25991;&#20214;&#20013;&#65292;&#23601;&#30693;&#36947;&#20043;&#21069;&#26377;&#27809;&#26377;&#19979;&#36807;&#36825;&#20010;&#30058;&#21495;&#20102;
            for page in range(1,100):
                try:
                    content = driver.page_source.encode('utf-8')
                    soup = BeautifulSoup(content, 'lxml')
                    img = soup.find_all('img')
                    src1 = re.findall(r'src=".*?"', str(img))
                    name1 = re.findall(r'alt=".*?"', str(img))
                    src2 = []
                    name2 = []
                    for i in src1:
                        src2.append(i.split('=')[1].replace("\"",""))
                    for i in name1:
                        name2.append(i.split('=')[1].replace("\"", ""))
                    if category == "Scute":
                        pattern = "S-cute"
                    else:
                        pattern = category
                    try:
                        temp = [x.replace("inggo.info", "paypp.xyz") for x in src2]
                        src3 = [x for x in temp if 'images.paypp.xyz/wp-content/uploads' in x]
                    except:
                        src3 = [x for x in src2 if 'images.paypp.xyz/wp-content/uploads' in x]
                    name3 = [x for x in name2 if pattern in x]
                    if len(name3) < 12:
                        name3 = name2
                    # &#19978;&#38754;&#26159;name3&#21644;src3 &#20445;&#23384;&#20102;&#20027;&#39029;&#38754;&#30340;&#30058;&#21495;&#21644;&#30456;&#24212;&#30340;&#35814;&#24773;&#39029;&#30340;&#38142;&#25509;
                    # &#25509;&#19979;&#26469;&#21551;&#21160;&#31532;&#20108;&#20010;&#27983;&#35272;&#22120;&#23545;&#21508;&#20010;&#35814;&#24773;&#39029;&#30340;&#35270;&#39057;&#25130;&#22270;&#36827;&#34892;&#25235;&#21462;
                    driver1 = webdriver.Chrome(options=chrome_opts)
                    for i in range(len(src3)):
                        try:
                            if '[' and '&#12304;' not in name3[i]:
                                title = name3[i]
                            else:
                                title = name3[i].split('&#12304;')[1].split('&#12305;')[0] # &#31616;&#21270;&#19968;&#19979;&#30058;&#21495;&#30340;&#21517;&#23383;
                        except:
                            title = name3[i].split('[')[1].split(']')[0]
                        if i >= 1:
                            try:
                                if name3[i].split('[')[1].split(']')[0] == name3[i-1].split('[')[1].split(']')[0]:
                                    title = name3[i].split(']')[1].replace("[","")
                            except:
                                pass
                        if i >= 1:
                            try:
                                if name3[i].split('&#12304;')[1].split('&#12305;')[0] == name3[i-1].split('&#12304;')[1].split('&#12305;')[0]:
                                    title = name3[i].split('&#12305;')[1].replace("&#12304;","")
                            except:
                                pass
                        if title in Exist:
                            print("%s &#24050;&#32463;&#19979;&#36733;&#65281;" % (title))
                            continue
                        # &#21069;&#25991;&#25552;&#21040;&#30340;&#21028;&#26029;&#26159;&#21542;&#19979;&#36807;&#65292;&#22914;&#26524;&#26159;&#65292;&#21518;&#38754;&#23601;&#19981;&#29992;&#36827;&#34892;&#20102;
                        # &#36827;&#20837;&#30456;&#24212;&#38142;&#25509;&#30340;&#35814;&#24773;&#39029;
                        driver1.get(src3[i])
                        img = driver1.find_element_by_xpath("//html/body/img")
                        img.screenshot(custom_path + title + '.jpg')
                        # wait = WebDriverWait(driver1, 10) # &#31561;&#24453;&#27983;&#35272;&#22120;&#30456;&#24212;&#65292;&#21024;&#38500;&#20063;&#21487;&#20197;
                        # pyautogui.rightClick(x=500, y=500) # &#21491;&#20987;&#22270;&#29255;&#65292;&#20301;&#32622;&#21487;&#26681;&#25454;&#33258;&#24049;&#30340;&#23631;&#24149;&#35843;&#25972;
                        # pyautogui.typewrite(['V']) # &#21478;&#23384;&#20026;&#30340;&#24555;&#25463;&#38190;&#20026; V
                        # time.sleep(2) # &#31561;&#24453;&#30005;&#33041;&#21709;&#24212;
                        # pyperclip.copy(custom_path + title + '.jpg')  # &#22797;&#21046;&#25991;&#20214;&#21517;&#21152;&#36335;&#24452;&#21040;&#31896;&#36148;&#26495;
                        # time.sleep(1)
                        # pyautogui.hotkey('ctrlleft', 'V') # &#31896;&#36148;
                        # time.sleep(1)
                        # pyautogui.press('enter') # &#30830;&#35748;
                        # time.sleep(1)
                        while True:
                            filelist = os.listdir(custom_path)
                            if title + '.jpg' in filelist:
                                with open(custom_path + 'history.txt', 'a+') as f:
                                    f.writelines(title)
                                    f.writelines('\n')
                                    f.close()
                                print("%s &#19979;&#36733;&#23436;&#25104;&#65281;" % (title))
                                break
                            else:
                                print("&#31561;&#24453;&#21709;&#24212;")
                                time.sleep(2)
                                # pyautogui.hotkey('ctrlleft', 'V')  # &#31896;&#36148;
                                # time.sleep(1)
                                # pyautogui.press('enter')  # &#30830;&#35748;
                                # time.sleep(1)
                        # &#22312;txt&#20013;&#21152;&#20837;&#24403;&#21069;&#19979;&#36733;&#30340;&#22270;&#29255;&#21517;&#23383;
                        print("%s &#19979;&#36733;&#23436;&#25104;&#65281;"%(title))
                    time.sleep(0.5)
                    driver1.quit()
                    print("&#31532; %d &#39029;&#29228;&#23436;"%(page))
                    button =  "//*[@class='next page-numbers']"  #&#32763;&#39029;&#25353;&#38062;
                    driver.find_elements_by_xpath(button)[0].click()
                except:
                    print("&#31532; %d &#39029;&#20986;&#38169;&#65281;"%(page))
                    driver1.quit()
                    try:
                        button =  "//*[@class='next page-numbers']"  #&#32763;&#39029;&#25353;&#38062;
                        driver.find_elements_by_xpath(button)[0].click()
                    except:
                        print("&#29228;&#21462;&#23436;&#27605;&#65281;")
                        break
                    continue

        driver = open_browser(url)
        time.sleep(2)
        scrapy(driver)