Classificação: entendendo os modelos tradicionais de ML

Introdução à Classificação - Apresentação

Apresentando o curso e a instrutora

Olá! Sejam bem-vindes ao curso de classificação entendendo modelos tradicionais.

Eu sou Mariana, cientista de dados, professora e instrutora aqui na Alura, apaixonada por tudo o que envolve o mundo dos dados, e estarei com vocês ao longo deste curso.

Detalhando objetivos e abordagem do curso

O que vamos aprender aqui? Nós vamos construir nosso primeiro modelo de classificação do zero até disponibilizar nosso modelo via API REST (interface de programação de aplicações baseada em REST). Nós vamos compreender o que é um problema de classificação, conhecer e construir modelos a partir de três algoritmos clássicos de classificação e montar um pipeline (fluxo de trabalho) completo de machine learning (aprendizado de máquina) orientado ao problema de classificação, desde a formulação do problema até a análise exploratória dos dados, a preparação dos dados, o treinamento, a avaliação e a otimização. Por fim, nós vamos disponibilizar o modelo via API REST (interface de programação de aplicações baseada em REST).

O mais interessante é que nós vamos aprender a utilizar AIs (inteligências artificiais) como apoio em nosso processo de desenvolvimento de modelos. Há um ponto importante: nós não vamos desenvolver os modelos trabalhando cada algoritmo com um conjunto de dados separadamente. Nós vamos aprender a solucionar um problema. Nós vamos simular uma situação, um cenário do mundo real, para que desenvolvamos de fato um produto de dados.

Contextualizando o cenário do projeto

Nosso cenário é o seguinte: a Analytic Solutions foi contratada por uma instituição financeira que deseja tornar suas campanhas de marketing mais eficientes.

Na instituição bancária em questão, já existe um esquema de campanhas e ações de divulgação de serviços. Entretanto, percebeu-se que a estratégia é pouco eficaz: as campanhas de marketing atingem muitos clientes, mas a maioria não aceita as ofertas. Isso eleva os custos das campanhas e reduz a taxa de conversão, ou seja, o percentual de clientes contatados que de fato aceitam a oferta.

Diante desse cenário, a instituição deseja utilizar dados históricos de clientes para identificar, com antecedência, quais clientes têm maior probabilidade de aceitar uma campanha do banco.

Fomos contratados, na empresa em que atuamos como pessoas cientistas de dados, para desenvolver um modelo de classificação capaz de prever se um cliente vai aceitar ou não a oferta apresentada em uma determinada campanha de marketing.

Especificando metas e próximos passos

Com base nisso, desejamos identificar:

Quais características do cliente indicam interesse nos produtos bancários.
Quais clientes têm maior probabilidade de aceitar uma oferta.
Como aumentar o retorno das campanhas de marketing.

Assim, definimos nosso problema de negócio: como identificar, com antecedência, quais clientes têm maior probabilidade de aceitar as ofertas do banco a partir das campanhas de marketing.

Uma vez compreendido o cenário, vamos identificar o que é classificação. Este curso é orientado à classificação, mas o que é, de fato, classificação? É isso que veremos no próximo vídeo. Nos vemos lá!

Introdução à Classificação - O que é classificação

Apresentando a classificação e o problema de negócio

Olá, como estão? Boas-vindas ao nosso vídeo, no qual vamos aprender o que é classificação.

Já sabemos qual é o nosso problema de negócio: identificar antecipadamente quais pessoas clientes têm maior probabilidade de aderir a uma campanha bancária, isto é, a uma oferta do banco. Agora, vamos compreender em que tipo de problema esse desafio se encaixa. Diante desse problema de negócio, qual algoritmo devemos utilizar? Qual modelo vamos produzir?

Explicando o aprendizado supervisionado e o treinamento

Para isso, precisamos entender que o aprendizado de máquina possui diferentes enfoques para construir o modelo de predição. Um desses enfoques é o aprendizado supervisionado.

Como funciona esse enfoque? O modelo aprende a partir de exemplos rotulados, ou seja, dados de entrada cuja resposta correta já é conhecida. No nosso cenário, a instituição bancária nos fornecerá o histórico de pessoas clientes, com suas informações e com uma variável específica que indica se a pessoa cliente aderiu ou não a alguma campanha de marketing, alguma oferta do banco. Temos, portanto, as características das pessoas clientes e a variável resposta, que é o que queremos prever. Com esse cenário, estamos no contexto do aprendizado supervisionado.

Como ocorre o treinamento? Temos dados de entrada rotulados. A partir desses dados, o modelo gera uma saída — no nosso caso, se a pessoa cliente aderiu ou não à campanha. Obteremos um valor previsto, e também temos o valor real presente no histórico. Realizamos a comparação entre ambos, e o algoritmo ajusta as configurações do modelo, isto é, ajusta os hiperparâmetros, para identificar cada vez melhor as pessoas clientes. Assim, teremos a Y predita (a variável prevista) e a Y real (a variável observada nos dados rotulados), e executaremos esse processo iterativo de ajuste das configurações do modelo.

Diferenciando regressão e classificação

No aprendizado supervisionado, há dois tipos de tarefa: regressão e classificação. Este curso está focado na tarefa de classificação, mas vamos entender a diferença entre elas.

Na tarefa de regressão, queremos prever um valor numérico contínuo, isto é, quantificar. Por exemplo, se o nosso problema de negócio fosse prever quanto de receita o banco vai receber a partir de uma determinada campanha de marketing, estaríamos interessados em um valor monetário. Quantificar caracteriza um problema de regressão.

Na classificação, como o nome sugere, queremos qualificar, identificar a categoria. No nosso caso, queremos encontrar as pessoas clientes que aderem ou não à campanha bancária. Temos a categoria de quem aderiu e a categoria de quem não aderiu. Esse tipo de problema, em que queremos prever um valor discreto em um conjunto fechado de categorias, é denominado classificação. Em regressão, buscamos quantificar; em classificação, buscamos qualificar e categorizar.

Apresentando exemplos de classificação

A classificação é a tarefa de aprendizado de máquina cujo objetivo é prever uma categoria. Antes de avançarmos para os tipos, vamos apresentar alguns exemplos.

Em nosso caso, podemos classificar se um cliente vai aderir ou não a uma campanha, classificar e-mails como spam (mensagem indesejada) ou não spam. Temos duas categorias: spam e não spam. Em fraude bancária, analisamos uma transação específica e identificamos se é fraude ou não é fraude. Também são duas classes; é outro exemplo de classificação.

No mundo real, existem diversos problemas de classificação. Nossos algoritmos de classificação são projetados para gerar modelos que solucionem esse tipo de problema.

Detalhando os tipos de classificação

Agora, passemos aos tipos de classificação. A classificação pode ser dividida, por exemplo, em classificação binária, na qual categorizamos apenas em dois tipos, como spam/não spam e fraude/não fraude. Esse é o tipo de classificação binária.

Também existe a classificação multiclasse, que, em vez de ter duas classes, tem três, quatro ou mais. Por exemplo, podemos querer identificar tipos de campanha de marketing (mercadologia): campanhas mais orientadas ao tema investimento, investimento imobiliário, campanhas dirigidas a pessoas que possuem cartão de crédito — uma classe distinta das pessoas investidoras —, e campanhas voltadas a quem possui empréstimos ou algum acordo com o banco. Nesse caso, há mais de um tipo de classe; esse é o problema multiclasse.

E o multilabel (múltiplos rótulos)? O multilabel ocorre quando um registro pode ser classificado em mais de uma classe. Na classificação binária e na multiclasse, cada registro pertence a apenas uma classe. No multilabel, um registro pode pertencer a mais de uma classe. Por exemplo, pensando no tipo de campanha, a campanha pode ser direcionada a pessoas corretoras e, ao mesmo tempo, a pessoas corretoras iniciantes que também são investidoras. Assim, temos um registro — a campanha bancária — que pode ter, simultaneamente, três categorias. Esse é o tipo multilabel.

Por que isso é importante? O tipo de problema influencia os modelos que utilizamos. Existem algoritmos muito bons para multilabel, enquanto outros não apresentam bom desempenho nesse cenário. O entendimento do tipo de classificação é essencial para a escolha das métricas de avaliação e, sobretudo, para as estratégias de treinamento: como será realizado o processo de treinamento. Saber distinguir qual tipo de classificação se encaixa no problema de negócio é de extrema importância.

Enquadrando nosso problema como classificação binária

No nosso cenário — e já demos vários spoilers (antecipações) ao longo do vídeo —, queremos prever a adesão de um cliente a uma campanha de marketing. A saída é adesão ou não adesão. São duas saídas: adere ou não adere. Portanto, temos um problema de classificação binária.

É um problema supervisionado, pois, sendo um problema de classificação, é supervisionado. Além disso, o banco nos fornecerá registros históricos de clientes com suas características e a informação de se já aderiram ou não a alguma campanha ou oferta do banco. Estamos, então, diante de um problema de aprendizagem supervisionada, porque trabalhamos com dados rotulados. É um problema de classificação, porque queremos prever categorias. E é um problema de classificação binária, porque são duas categorias a serem previstas.

Antecipando os próximos passos

Agora que já sabemos qual é o tipo do nosso problema — classificação binária —, vamos compreender a visão geral do nosso pipeline (fluxo) de aprendizagem automática. Qual será o passo a passo daqui em diante?

Eu te espero no próximo vídeo.

Introdução à Classificação - Pipeline Machine Learning

Apresentando o objetivo do vídeo e o problema de negócio

Olá a todas as pessoas, como estão? Bem-vindas e bem-vindos ao último vídeo da Aula 1, no qual teremos uma visão geral de um pipeline (fluxo de processamento) de machine learning (aprendizado de máquina), com foco em problemas de classificação.

Para relembrar nosso problema de negócio: como identificar antecipadamente quais pessoas clientes têm maior probabilidade de aceitar a oferta do banco. Esse é nosso problema. Já sabemos o que é uma tarefa de classificação; agora vamos entender como construiremos nosso modelo de classificação.

Contextualizando o pipeline de machine learning

No mercado de trabalho, dificilmente começamos a desenvolver o problema diretamente a partir do algoritmo. Não pegamos os dados brutos — nosso histórico, fornecido pelo banco — e os colocamos diretamente no algoritmo para gerar o modelo. Não é assim que funciona. Existe um passo a passo e um conjunto de boas práticas para que possamos, de fato, construir modelos de predição eficientes. A esse passo a passo chamamos de pipeline (fluxo de processamento) de machine learning (aprendizado de máquina).

Um pipeline (fluxo de processamento) é uma sequência de etapas que transformará nossos dados — o histórico de pessoas clientes que receberemos do banco — em uma solução, que é nossa API (interface de programação de aplicações) responsável por prever se uma pessoa cliente aceitará ou não uma oferta do banco. Cada etapa é de extrema importância e depende da etapa anterior.

Neste momento, estamos apresentando uma visão geral. Poderíamos detalhar mais esse pipeline (fluxo de processamento), mas, de forma geral, este é um pipeline (fluxo de processamento) orientado à classificação.

Explorando e preparando os dados

A primeira etapa é a etapa dos dados. Recebemos os dados da nossa instituição financeira e precisamos conhecê-los. Como vamos construir um algoritmo, ou escolher o melhor algoritmo, se não sabemos com o que estamos trabalhando? Precisamos conhecer nossos dados e realizar o que chamamos de análise exploratória: vamos explorar e identificar quais são as características dos dados. Há um conjunto de abordagens, como análise univariada e análise multivariada, e vamos aprender a utilizar a IA para otimizar nosso processo de análise exploratória.

Depois de conhecer os dados, não podemos simplesmente inseri-los em nossos algoritmos, porque os dados brutos vêm do mundo real e, muitas vezes, contêm valores nulos e valores inconsistentes. Por isso, eles precisam passar por uma etapa para ficarem coerentes e preparados, tornando-se dados de entrada adequados para os algoritmos. Essa etapa se chama preparação de dados. Vamos transformar os dados recebidos, que são dados brutos, em dados apropriados para o processo de treinamento.

Modelando o problema e estabelecendo o baseline

Concluída a preparação dos dados, passamos à etapa de treinamento do modelo, a fase que chamamos de modelagem. Vamos modelar nosso problema.

Normalmente, escolhemos um algoritmo de baseline (linha de base), que é o algoritmo básico responsável por gerar os primeiros resultados e servir de referência. O baseline (linha de base) nos ajuda a selecionar outros algoritmos e a gerar modelos melhores do que ele.

Avaliando e otimizando os modelos

Neste curso, desenvolveremos quatro modelos: o modelo de baseline (linha de base) e três modelos baseados nos algoritmos que vamos aprender ao longo das aulas. Concluída a modelagem, com os quatro modelos prontos, passamos para a fase de avaliação. O objetivo dessa etapa é responder: geramos quatro modelos, mas qual colocaremos em produção? Qual é o melhor deles? Faremos uma análise dos resultados utilizando métricas para identificar o desempenho dos modelos, compará-los e, de fato, definir o melhor.

Além da avaliação, existe a etapa de ajustes, em que buscamos melhorar o desempenho do modelo; é a fase de otimização do modelo. Com os quatro modelos em mãos e tendo escolhido o melhor, verificaremos se é possível aprimorá-lo. Também podemos aplicar otimização nos dois ou três melhores modelos para identificar, de forma conclusiva, qual será o modelo final que irá para a API (interface de programação de aplicações). Essa é a etapa de melhorias, em que realizamos ajustes para tornar o modelo mais eficiente.

Implementando a solução e destacando boas práticas

Depois disso, exportaremos o modelo final e construiremos nossa solução: uma API (interface de programação de aplicações) capaz de receber novos dados de novas pessoas clientes e identificar se cada pessoa aceitará ou não a campanha.

Trata-se de um processo passo a passo, uma sequência de etapas. Começamos com dados brutos e terminamos com uma solução. É importante compreender que, no mundo real, passamos mais tempo no diagnóstico exploratório, na preparação e nos ajustes dos dados, para que, ao chegarmos à etapa de modelagem, já tenhamos dados adequados. Portanto, nós, como pessoas cientistas de dados, não simplesmente pegamos os dados e os colocamos como entrada no algoritmo. Existem critérios e um passo a passo para desenvolvermos uma solução eficiente.

Avançando para a preparação dos dados

Esse é o pipeline (fluxo de etapas) que vamos desenvolver ao longo do curso. Compreendido o passo a passo e o pipeline (fluxo de etapas), avançaremos para a etapa de preparação dos dados. Primeiro, entenderemos o que é a preparação dos dados e, em seguida, partiremos para a prática, em que conheceremos nossos dados por meio da análise exploratória e os prepararemos para as próximas etapas.

Eu te espero na próxima aula.

Sobre o curso Classificação: entendendo os modelos tradicionais de ML

O curso Classificação: entendendo os modelos tradicionais de ML possui 227 minutos de vídeos, em um total de 60 atividades. Gostou? Conheça nossos outros cursos de Machine Learning em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Introdução à Classificação
Preparação dos dados para Classificação
Regressão Logística: teoria e prática
KNN (K-Nearest Neighbors): teoria e prática
Árvores de Decisão: teoria e prática
Avaliação de modelos de Classificação
Validação, otimização e comparação de modelo

Aprenda Machine Learning acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas

Imersões

7 Days of Code

Artigos

Podcasts

Tech Guide

Vídeos Extras

Depoimentos de Alunos

Cases de Sucesso Exclusivo para estudantes Alura

Classificação: entendendo os modelos tradicionais de ML

Introdução à Classificação - Apresentação

Apresentando o curso e a instrutora

Detalhando objetivos e abordagem do curso

Contextualizando o cenário do projeto

Especificando metas e próximos passos

Introdução à Classificação - O que é classificação

Apresentando a classificação e o problema de negócio

Explicando o aprendizado supervisionado e o treinamento

Diferenciando regressão e classificação

Apresentando exemplos de classificação

Detalhando os tipos de classificação

Enquadrando nosso problema como classificação binária

Antecipando os próximos passos

Introdução à Classificação - Pipeline Machine Learning

Apresentando o objetivo do vídeo e o problema de negócio

Contextualizando o pipeline de machine learning

Explorando e preparando os dados

Modelando o problema e estabelecendo o baseline

Avaliando e otimizando os modelos

Implementando a solução e destacando boas práticas

Avançando para a preparação dos dados

Sobre o curso Classificação: entendendo os modelos tradicionais de ML

Aprenda Machine Learning acessando integralmente esse e outros cursos, comece hoje!

Plus

Pro

Ultra Lab

Plus 24

Pro 24

Ultra Lab 24

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP