Programa

PARTE 1 - Introdução à ciência de dados:

A primeira aula do curso é reservada à uma exposição a respeito do conceito de ciência de dados e suas aplicações contemporâneas em diversas áreas, com foco na prática do direito. Alguns conceitos fundamentais são introduzidos, com a exposição dos tipos de aplicações que podem ser feitos a partir da disciplina e da metodologia tradicionalmente empregada em projetos de ciência de dados.

PARTE 2 - Lógica, inferência e ciência de dados:

Nesta aula, revisaremos os conectores lógicos e as inferências realizadas a partir de condicionais. Veremos como a utilização dessas ferramentas é necessária, do ponto de vista conceitual, para definirmos de maneira adequada os problemas jurídicos que pretendemos investigar. Após, veremos que, de maneira pragmática, é necessário conhecer estas ferramentas para analisar os dados jurídicos.

PARTE 3 - Tratamento de dados jurídicos:

Dados relacionados ao direito geralmente se diferenciam de maneira destacada dos dados apresentados em cursos introdutórios. Isso se dá ante à prevalência de variáveis discretas relativamente a variáveis numéricas. Nessa aula, conceituaremos os diferentes tipos de variáveis, bem como realizaremos a distinção entre dados estruturados e não estruturados. Após, introduziremos as bases de dados que serão utilizadas no curso e veremos como selecionar subconjuntos dos dados a partir de condições lógicas. Também veremos como criar novas variáveis.

PARTE 4 - Enriquecendo os dados:

A maior parte das bases estruturadas contam com várias tabelas que se relacionam entre si. Mesmo bases que, na verdade, são uma única tabela, podem ser enriquecidas a partir de informações externas, que se conectam a essa tabela através de determinadas variáveis. Para lidar com esse tipo de situação, é necessário juntar diversas tabelas. A presente aula tem como objetivo mostrar como se dá essa junção no nível da implementação e nos ensina a lidar com alguns dos problemas mais frequentes. Em um segundo momento, veremos como lidar com datas.

PARTE 5 - Estatísticas descritivas simples:

Dados podem ser descritos de diferentes maneiras. Média, moda e mediana são 3 das opções que estão disponíveis quando queremos descrever um determinado conjunto de dados e a diferença entre grupos dentro desses dados. Cada um desses conceitos possui sua definição e, embora todos sejam medidas de centralidade, cada um deles pode ser radicalmente diferente em um conjunto de dados. Em aula, discutiremos quando cada uma das métricas parece ser mais adequada e quais são os prós e os contras da utilização de cada uma delas. Isso será feito em conjunto com a discussão sobre a visualização desses dados, que será feita, em um primeiro momento, através de histogramas.

PARTE 6 - Visualização de dados:

Assim como cada estatística descritiva comunica certos aspectos sobre os dados, cada modo de visualização também encobre ou ilumina certas características deles. Nesta aula, veremos algumas boas práticas na visualização de dados.

PARTE 7 - Inferências estatísticas (comparação entre grupos):

Na maior parte das vezes, nossa análise não se limita a dizer algo sobre os dados diretamente avaliados. Em geral, desejamos fazer afirmações sobre os dados que encontraremos no futuro, ou sobre as causas de uma determinada diferença não só nos dados observados, mas em quaisquer dados que pudessem vir a ser colhidos. O instrumento tradicionalmente utilizado para generalizar as conclusões nesse sentido é o teste de hipótese, cuja significância estatística é expressa por um valor (p-valor). Nesse ponto, discutiremos os conceitos de significância estatística e de teste de hipótese à luz de alguns testes específicos. Em particular, veremos os testes x² e t para variáveis discretas e a correlação de Pearson para variáveis contínuas, bem como os intervalos de confiança.

PARTE 8 - Aprendizado de máquina – classificadores:

Nessa aula, introduziremos o conceito de aprendizado de máquina, com foco no aprendizado supervisionado. A partir desse conceito, veremos como a regressão linear prospectiva é um exemplo de método de "machine learning". Veremos, então, que os problemas a que esse campo foi aplicado se dividem, de maneira geral, em problemas de regressão (onde precisamos prever uma variável contínua) e problemas de classificação. Focaremos então nos problemas de classificação, discutindo o algoritmo Naïve Bayes e sua utilidade no contexto jurídico.