Raspagem de Dados na Internet: Obtenção de dados em grandes quantidades

Raspagem de Dados na Internet: Obtenção de Dados em Grandes Quantidades

Descrição do Curso:

O curso Raspagem de Dados na Internet: obtenção de dados em grandes quantidades é uma formação robusta e prática, projetada para capacitar profissionais para automatizar a coleta e o processamento de grandes volumes de informações da internet (Web Scraping). Unindo o poder das Expressões Regulares (REGEX) para filtragem precisa de dados, a robustez da linguagem Python e respectivas bibliotecas para automações, este curso transforma a maneira como dados de fontes abertas podem ser coletados. Os alunos aprenderão a construir "robôs" para extrair dados de sites de notícias, portais governamentais e redes sociais, convertendo informação bruta em inteligência acionável.

Curso e seu Propósito

1. Qual é o principal problema ou desafio que este curso ajuda os alunos a resolver?

O principal desafio é a coleta manual de dados online, que é um processo lento, ineficiente e suscetível a erros, especialmente em investigações que lidam com um volume massivo de informações dispersas. O curso resolve esse problema ensinando os alunos a automatizar a extração de dados, permitindo que eles coletem, filtrem e estruturem informações de forma rápida, escalável e precisa, otimizando o tempo e a qualidade da análise.

2. Quais são os objetivos principais deste produto?

Dominar as Expressões Regulares (REGEX) para criar padrões de busca e extração de dados, conseguindo filtrar e padronizar informações com precisão a partir de qualquer volume de texto ou código-fonte.

Desenvolver scripts de automação com Python e Playwright, programando robôs que navegam de forma autônoma em websites, preenchem formulários, realizam cliques e coletam dados de maneira estruturada.

Aplicar técnicas de raspagem de dados em múltiplos cenários, adaptando seus conhecimentos para extrair informações de fontes diversas como redes sociais (Facebook, X/Twitter, Instagram), portais de notícias e sites governamentais.

Analisar a estrutura de páginas web complexas, inspecionando seus elementos e requisições de rede para identificar e coletar dados de forma mais eficiente, inclusive aqueles transmitidos em formato JSON.

3. Qual é o público-alvo ideal para este curso?

Membros de forças policiais e MPs, peritos, auditores e analistas de controle, profissionais de compliance, investigação corporativa e integridade; jornalistas investigativos e equipes de risk & fraud.

4. É necessário algum conhecimento ou formação específica para esse curso?

Não é exigido conhecimento prévio em programação. O curso foi estruturado para guiar o aluno desde os conceitos fundamentais de lógica e REGEX até a criação de scripts em Python. No entanto, é recomendável ter familiaridade com o uso de computadores e navegação na internet. O curso não é restrito e se destina a todos os profissionais que buscam automatizar seus processos de coleta de dados.

Benefícios e Diferenciais

1. Quais habilidades práticas o aluno desenvolverá ao longo do curso?

Dominar o uso de Expressões Regulares (REGEX) para buscar, extrair e validar padrões de texto complexos em fontes de dados dispersas

Desenvolver scripts de automação em Python utilizando a biblioteca Playwright para navegar e extrair informações de sites

Utilizar Inteligência Artificial Generativa (ChatGPT/DeepSeek) como assistente para criar, depurar e otimizar seus códigos de raspagem.

Aplicar técnicas de Web Scraping em cenários reais e complexos, como portais de transparência, redes sociais (Facebook, Instagram, X/Twitter) e sites de notícias, dentre outros.

Analisar as requisições de rede de um site para identificar e extrair dados diretamente de APIs em formato JSON.

2. Como o curso pode impactar a carreira ou atuação profissional do aluno?

Este curso adiciona uma camada de competência técnica altamente valorizada no mercado. O profissional deixará de ser um mero consumidor de informações para se tornar um produtor de inteligência automatizada. Isso resulta em um aumento drástico de produtividade, na capacidade de conduzir investigações mais profundas e baseadas em dados, e abre portas para atuar em áreas especializadas de análise de dados, cyber intelligence e investigações digitais.

3. O que torna este curso diferente de outras formações similares no mercado?

A principal diferença deste curso está na sua abordagem progressiva e prática, que transforma o aluno de um simples usuário de ferramentas em um desenvolvedor de suas próprias soluções de coleta de dados.

Enquanto muitas formações se limitam a ensinar o uso de softwares prontos ou abordam a programação de forma teórica e genérica, este curso integra três pilares essenciais para a investigação moderna: a precisão cirúrgica das Expressões Regulares (REGEX), a automação robusta com Python e a aceleração do desenvolvimento com Inteligência Artificial.

O aluno aprende não apenas a extrair dados de forma pontual, mas a construir e dominar "robôs" de extração personalizados e escaláveis. Isso o capacita a transformar o caos de informações da web em inteligência estruturada, segura e acionável, criando uma vantagem decisiva para investigações complexas, análises de mercado e produção de conhecimento.

Conteúdo e Resultados

1.Quais ferramentas ou metodologias serão ensinadas? Qual é a importância delas no mercado?

Será ensinada a metodologia de automação da coleta e estruturação de dados em fontes abertas (Web Scraping), integrada ao ciclo de inteligência para a produção de conhecimento. O curso apresenta uma abordagem eminentemente prática para a criação de "robôs" que executam as fases de coleta e processamento de dados de forma sistemática, permitindo a extração de informações de websites, redes sociais e portais governamentais em larga escala.

Entre as ferramentas e tecnologias utilizadas, destacam-se as Expressões Regulares (REGEX) para filtragem e extração precisa de padrões; a linguagem Python como base para a criação dos scripts; a biblioteca de automação Playwright para controlar o navegador e interagir com páginas web; as Ferramentas de Desenvolvedor (DevTools) para análise de requisições de rede e identificação de APIs; e o suporte de Inteligência Artificial Generativa para acelerar o desenvolvimento e a depuração dos códigos.

Essas ferramentas e a metodologia de automação são altamente requisitadas no mercado de inteligência, investigação e análise de dados, por conferirem uma vantagem competitiva decisiva. Elas capacitam o profissional a ir além da simples consulta, permitindo construir fontes de dados primárias e personalizadas, e transformar o vasto e desorganizado oceano de dados da internet em inteligência estruturada, atualizada e acionável.

2. Há exemplos práticos ou casos reais abordados no curso? Pode descrever alguns?

Sim, o curso é centrado em exemplos práticos, como:

Raspagem de Portais de Transparência: Extração automática de dados de licitações, contratos ou remuneração de servidores públicos para análise.

Monitoramento de Redes Sociais: Criação de scripts para coletar publicações de perfis ou grupos específicos no Facebook, Instagram e X/Twitter para fins de inteligência.

Análise de Sites de Notícias: Extração em massa de notícias sobre um determinado tema para identificar tendências ou padrões.

Caso de Estudo: Pessoas Desaparecidas: Uso de técnicas de raspagem para coletar e consolidar informações de diferentes fontes sobre pessoas desaparecidas.

Carga horária:

1. Qual a carga horária total de aulas?

O curso possui carga horária total de 20 horas-aula.

Material Didático:

1. Quais materiais serão disponibilizados?

Todo o conteúdo pedagógico (gravações das aulas, apresentações, arquivos, links, etc.) estará disponível aos estudantes na plataforma da WB Educação;

Professor:

Professor-instrutor:

Esp. Willian Wistuba Melo da Cunha

Auditor de Controle Externo do TCE-SP. Especialização Latu Sensu em Direito Público pelas Faculdades Integradas do Brasil (Unibrasil-PR) / Escola da Magistratura Federal do Paraná e especialização em Administração, MBA em Gestão Pública, com ênfase em Controle Externo pela FAE(PR). Bacharel em Direito pelo Centro Universitário Curitiba - UNICURITIBA/PR e advogado. Professor da WB Educacional nas matérias de raspagem de dados e OSINT financeira e patrimonial.

LinkedIn | Lattes

Coordenadores Acadêmicos:

Dr. Emerson Wendt

Delegado de Polícia Civil do Rio Grande do Sul. Ex-Chefe de Polícia Civil. e Ex-Presidente do Conselho Nacional de Chefes de Polícia. Mestre e Doutor em Direito pela Universidade La Salle - Canoas/RS. Professor de cursos de pós-graduação e de academias de polícia. Escritor.

LinkedIn | Instagram

Me. Alesandro Barreto

Delegado de Polícia Civil do Pauí. Mestre em Seguridad de la Información y Continuidad de Negocio (Ciberseguridad) pela Universidad Catolica de Murcia – Espanha. Professor convidado em diversos eventos nacionais e internacionais sobre a temática de Cyber investigação. Autor de diversas obras relevantes sobre a temática das investigações cibernéticas e criminalidade informática. Coordenador do Laboratório de Operações Cibernéticas do Ministério da Justiça e Segurança Pública.