web_scrap/import_export_canalblog.py

#!/usr/bin/python3
from requests.auth import HTTPBasicAuth
from getpass import getpass
from urllib.parse import urlparse
import argparse, logging, threading
import multiprocessing
from lib.WPImport import WPimport
from lib.WPExport import WPExport


def download(name_thread, max_thread, exportWp, html, img):
    exportWp.setName(name_thread)
    webpage = exportWp.getUrlPage(name_thread, max_thread)
    if html is False:
        exportWp.downloadHTML(webpage)
    
    if args.img is False:
        exportWp.downloadImg(webpage)


if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument("--debug", help="Verbosity",  action="store_true")
    parser.add_argument("--logfile", help="Log file",  default="")
    parser.add_argument("--quiet", help="No console output", action="store_true")
    parser.add_argument("--parser", help="Parser content", default="html.parser")
    parser.add_argument("--parallel", help="Define number thread (default : 1)", default=1)

    subparsers = parser.add_subparsers(dest="command")

    import_parser = subparsers.add_parser("import")
    import_parser.add_argument("--user", help="wordpress user", required=True)
    import_parser.add_argument("--file", help="HTML file", default="")
    import_parser.add_argument("--directory", help="HTML directory", default="")
    import_parser.add_argument("--canalblog", help="URL Canalblog", default="")
    import_parser.add_argument("--wordpress", help="URL Wordpress", required=True)
    import_parser.add_argument("--serial", help="Serial execution", action="store_true")


    export_parser = subparsers.add_parser("export")

    export_parser.add_argument("--url", help="canblog URL to be scraping", required=True)
    export_parser.add_argument("--directory",
                      default="backup",
                      help="backup file path")
    export_parser.add_argument("--no-css", help="No CSS", dest="css",  action="store_true")
    export_parser.add_argument("--no-js", help="No JS", dest="js",  action="store_true")
    export_parser.add_argument("--no-img", help="No img", dest="img",  action="store_true")
    export_parser.add_argument("--no-html", help="No HTML", dest="html", action="store_true")

    
    args = parser.parse_args()

    logger = logging.getLogger('import export canalblog')
    formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')

    if args.quiet is False:
        ch = logging.StreamHandler()
        if args.debug is True:
            logger.setLevel(logging.DEBUG)
            ch.setLevel(logging.DEBUG)
        else:
            logger.setLevel(logging.INFO)
            ch.setLevel(logging.INFO)
        ch.setFormatter(formatter)
        logger.addHandler(ch)


    if len(args.logfile) > 0:
        fileHandler = logging.FileHandler(args.logfile)
        if args.debug is True:
            fileHandler.setLevel(logging.DEBUG)
        else:
            fileHandler.setLevel(logging.INFO)
        fileHandler.setFormatter(formatter)
        logger.addHandler(fileHandler)

    if args.command == "import":
        password = getpass()
        if len(password) == 0:
            logger.error("No password error !!! ")
            exit(1)

        basic = HTTPBasicAuth(args.user, password)
        wordpress = args.wordpress.split(",")
        importWp = WPimport(basic, "", logger, args.parser)
        if len(args.file) > 0:
            for i in wordpress:
                importWp.setUrl(i)
                importWp.fromFile(args.file.split(","))
            exit(0)
        if len(args.directory) > 0:
            directory = args.directory.split(",")
            if args.serial is False:
                for i in wordpress:
                    importWp.setUrl(i)
                    for j in directory:
                        importWp.fromDirectory(j)
            else:
                if len(directory) != len(wordpress):
                    logger.error("ERREUR : Le nombre de dossier n'est pas equivalent au nombre d'URL wordpress")
                    exit(1)
                for i in range(0, len(wordpress)-1):
                    importWp.setUrl(wordpress[i])
                    importWp.fromDirectory(directory[i])
            exit(0)
        if len(args.canalblog) > 0:
            exportWp = WPExport("", logger, args.parser, args.directory)
            canalblog = args.canalblog.split(",")
            wordpress = args.wordpress.split(",")

            if args.serial is False:
                for canal in canalblog:
                    try:
                        o = urlparse(canal)
                        o = o._replace(scheme="https")
                        url = o.geturl().replace(":///", "://")
                    except Exception as err:
                        logger.error("parsing error : {0}".format(err))
                        exit(1)
                    exportWp.setUrl(url)
                    webpage = exportWp.getUrlPage()
                    for j in wordpress:
                        importWp.setUrl(j)
                        importWp.fromUrl(webpage)
            else:
                if len(canalblog) != len(wordpress):
                    logger.error("ERREUR : Le nombre de dossier n'est pas equivalent au nombre d'URL wordpress")
                    exit(1)
                for i in range(0, len(canalblog)-1):
                    try:
                        o = urlparse(canalblog[i])
                        o = o._replace(scheme="https")
                        url = o.geturl().replace(":///", "://")
                    except Exception as err:
                        logger.error("parsing error : {0}".format(err))
                        exit(1)
                    exportWp.setUrl(url)
                    webpage = exportWp.getUrlPage()
                    importWp.setUrl(wordpress[i])
                    importWp.fromUrl(webpage)


    if args.command == "export":
        canalblog = args.url.split(",")
        exportWp = WPExport("", logger, args.parser, args.directory)
        for canal in canalblog:
            try:
                o = urlparse(canal)
                o = o._replace(scheme="https")
                url = o.geturl().replace(":///", "://")
            except Exception as err:
                logger.error("parsing error : {0}".format(err))
                exit(1)
            exportWp.setUrl(url)
            if args.js is False:
                exportWp.downloadJs()
    
            if args.css is False:
                exportWp.downloadCss()
    
            if args.html is False or args.img is False:
                threads = []
                for i in range(0, int(args.parallel)):
                    t1 = multiprocessing.Process(name="Process-{0}".format(i + 1), target=download, args=(i, 3, exportWp,args.html, args.img))
                    threads.append(t1)

                for thread in threads:
                    thread.start()
                    thread.join()
        exit(0)
add script insert wip 2023-03-23 23:28:57 +01:00			`#!/usr/bin/python3`
			`from requests.auth import HTTPBasicAuth`
			`from getpass import getpass`
fix WPExport 2023-04-09 23:49:10 +02:00			`from urllib.parse import urlparse`
add function 2023-04-22 00:07:54 +02:00			`import argparse, logging, threading`
Add parallelism 2023-04-24 23:15:29 +02:00			`import multiprocessing`
Organisation class in a folder 2023-04-11 22:15:36 +02:00			`from lib.WPImport import WPimport`
			`from lib.WPExport import WPExport`
add .gitgnore + add function 2023-03-28 22:29:55 +02:00

Add parallelism 2023-04-24 23:15:29 +02:00			`def download(name_thread, max_thread, exportWp, html, img):`
			`exportWp.setName(name_thread)`
			`webpage = exportWp.getUrlPage(name_thread, max_thread)`
add function 2023-04-22 00:07:54 +02:00			`if html is False:`
			`exportWp.downloadHTML(webpage)`

			`if args.img is False:`
			`exportWp.downloadImg(webpage)`




add .gitgnore + add function 2023-03-28 22:29:55 +02:00			`if __name__ == '__main__':`
			`parser = argparse.ArgumentParser()`
replace print by logger 2023-04-08 12:17:43 +02:00			`parser.add_argument("--debug", help="Verbosity", action="store_true")`
			`parser.add_argument("--logfile", help="Log file", default="")`
			`parser.add_argument("--quiet", help="No console output", action="store_true")`
add parameter parser 2023-04-09 21:17:49 +02:00			`parser.add_argument("--parser", help="Parser content", default="html.parser")`
Add parallelism 2023-04-24 23:15:29 +02:00			`parser.add_argument("--parallel", help="Define number thread (default : 1)", default=1)`
replace print by logger 2023-04-08 12:17:43 +02:00
add args command name 2023-04-08 23:43:06 +02:00			`subparsers = parser.add_subparsers(dest="command")`
subparser import 2023-04-08 23:20:52 +02:00
			`import_parser = subparsers.add_parser("import")`
			`import_parser.add_argument("--user", help="wordpress user", required=True)`
			`import_parser.add_argument("--file", help="HTML file", default="")`
			`import_parser.add_argument("--directory", help="HTML directory", default="")`
add export canalblog 2023-04-09 22:49:44 +02:00			`import_parser.add_argument("--canalblog", help="URL Canalblog", default="")`
subparser import 2023-04-08 23:20:52 +02:00			`import_parser.add_argument("--wordpress", help="URL Wordpress", required=True)`
add serial for url 2023-04-10 16:36:49 +02:00			`import_parser.add_argument("--serial", help="Serial execution", action="store_true")`

add subparser export 2023-04-08 23:34:56 +02:00
			`export_parser = subparsers.add_parser("export")`

			`export_parser.add_argument("--url", help="canblog URL to be scraping", required=True)`
			`export_parser.add_argument("--directory",`
			`default="backup",`
			`help="backup file path")`
			`export_parser.add_argument("--no-css", help="No CSS", dest="css", action="store_true")`
			`export_parser.add_argument("--no-js", help="No JS", dest="js", action="store_true")`
			`export_parser.add_argument("--no-img", help="No img", dest="img", action="store_true")`
			`export_parser.add_argument("--no-html", help="No HTML", dest="html", action="store_true")`

subparser import 2023-04-08 23:20:52 +02:00

add .gitgnore + add function 2023-03-28 22:29:55 +02:00			`args = parser.parse_args()`
add args command name 2023-04-08 23:43:06 +02:00
add import from url 2023-04-10 00:00:01 +02:00			`logger = logging.getLogger('import export canalblog')`
replace print by logger 2023-04-08 12:17:43 +02:00			`formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')`

			`if args.quiet is False:`
			`ch = logging.StreamHandler()`
			`if args.debug is True:`
			`logger.setLevel(logging.DEBUG)`
			`ch.setLevel(logging.DEBUG)`
			`else:`
			`logger.setLevel(logging.INFO)`
			`ch.setLevel(logging.INFO)`
			`ch.setFormatter(formatter)`
			`logger.addHandler(ch)`


			`if len(args.logfile) > 0:`
			`fileHandler = logging.FileHandler(args.logfile)`
			`if args.debug is True:`
			`fileHandler.setLevel(logging.DEBUG)`
			`else:`
			`fileHandler.setLevel(logging.INFO)`
			`fileHandler.setFormatter(formatter)`
			`logger.addHandler(fileHandler)`

add export canalblog 2023-04-09 22:49:44 +02:00			`if args.command == "import":`
add args command name 2023-04-08 23:43:06 +02:00			`password = getpass()`
			`if len(password) == 0:`
			`logger.error("No password error !!! ")`
			`exit(1)`
add .gitgnore + add function 2023-03-28 22:29:55 +02:00
add args command name 2023-04-08 23:43:06 +02:00			`basic = HTTPBasicAuth(args.user, password)`
add url list 2023-04-10 16:15:13 +02:00			`wordpress = args.wordpress.split(",")`
Organisation class in a folder 2023-04-11 22:15:36 +02:00			`importWp = WPimport(basic, "", logger, args.parser)`
add args command name 2023-04-08 23:43:06 +02:00			`if len(args.file) > 0:`
add url list 2023-04-10 16:15:13 +02:00			`for i in wordpress:`
			`importWp.setUrl(i)`
			`importWp.fromFile(args.file.split(","))`
add args command name 2023-04-08 23:43:06 +02:00			`exit(0)`
			`if len(args.directory) > 0:`
add serial for url 2023-04-10 16:36:49 +02:00			`directory = args.directory.split(",")`
			`if args.serial is False:`
			`for i in wordpress:`
			`importWp.setUrl(i)`
			`for j in directory:`
			`importWp.fromDirectory(j)`
			`else:`
			`if len(directory) != len(wordpress):`
			`logger.error("ERREUR : Le nombre de dossier n'est pas equivalent au nombre d'URL wordpress")`
			`exit(1)`
			`for i in range(0, len(wordpress)-1):`
			`importWp.setUrl(wordpress[i])`
			`importWp.fromDirectory(directory[i])`
add import from url 2023-04-10 00:00:01 +02:00			`exit(0)`
			`if len(args.canalblog) > 0:`
Organisation class in a folder 2023-04-11 22:15:36 +02:00			`exportWp = WPExport("", logger, args.parser, args.directory)`
loop for url 2023-04-10 16:02:40 +02:00			`canalblog = args.canalblog.split(",")`
add serial for url 2023-04-10 16:36:49 +02:00			`wordpress = args.wordpress.split(",")`

Organisation class in a folder 2023-04-11 22:15:36 +02:00			`if args.serial is False:`
add serial for url 2023-04-10 16:36:49 +02:00			`for canal in canalblog:`
			`try:`
			`o = urlparse(canal)`
			`o = o._replace(scheme="https")`
			`url = o.geturl().replace(":///", "://")`
			`except Exception as err:`
			`logger.error("parsing error : {0}".format(err))`
			`exit(1)`
			`exportWp.setUrl(url)`
			`webpage = exportWp.getUrlPage()`
			`for j in wordpress:`
			`importWp.setUrl(j)`
			`importWp.fromUrl(webpage)`
			`else:`
			`if len(canalblog) != len(wordpress):`
			`logger.error("ERREUR : Le nombre de dossier n'est pas equivalent au nombre d'URL wordpress")`
loop for url 2023-04-10 16:02:40 +02:00			`exit(1)`
add serial for url 2023-04-10 16:36:49 +02:00			`for i in range(0, len(canalblog)-1):`
			`try:`
			`o = urlparse(canalblog[i])`
			`o = o._replace(scheme="https")`
			`url = o.geturl().replace(":///", "://")`
			`except Exception as err:`
			`logger.error("parsing error : {0}".format(err))`
			`exit(1)`
			`exportWp.setUrl(url)`
			`webpage = exportWp.getUrlPage()`
			`importWp.setUrl(wordpress[i])`
			`importWp.fromUrl(webpage)`

loop for url 2023-04-10 16:02:40 +02:00

			`if args.command == "export":`
			`canalblog = args.url.split(",")`
Organisation class in a folder 2023-04-11 22:15:36 +02:00			`exportWp = WPExport("", logger, args.parser, args.directory)`
loop for url 2023-04-10 16:02:40 +02:00			`for canal in canalblog:`
add import from url 2023-04-10 00:00:01 +02:00			`try:`
loop for url 2023-04-10 16:02:40 +02:00			`o = urlparse(canal)`
add import from url 2023-04-10 00:00:01 +02:00			`o = o._replace(scheme="https")`
			`url = o.geturl().replace(":///", "://")`
			`except Exception as err:`
			`logger.error("parsing error : {0}".format(err))`
			`exit(1)`
loop for url 2023-04-10 16:02:40 +02:00			`exportWp.setUrl(url)`
			`if args.js is False:`
			`exportWp.downloadJs()`
add export canalblog 2023-04-09 22:49:44 +02:00
loop for url 2023-04-10 16:02:40 +02:00			`if args.css is False:`
			`exportWp.downloadCss()`
add export canalblog 2023-04-09 22:49:44 +02:00
loop for url 2023-04-10 16:02:40 +02:00			`if args.html is False or args.img is False:`
Add parallelism 2023-04-24 23:15:29 +02:00			`threads = []`
			`for i in range(0, int(args.parallel)):`
			`t1 = multiprocessing.Process(name="Process-{0}".format(i + 1), target=download, args=(i, 3, exportWp,args.html, args.img))`
			`threads.append(t1)`

			`for thread in threads:`
			`thread.start()`
			`thread.join()`
add exit 2023-04-09 22:50:41 +02:00			`exit(0)`