logo enap

RegBR

Métricas

Os dados foram atualizados em Maio/2022 com foco em atos normativos regulatórios. Atos de caráter administrativo, por exemplo, atos de outorga, atos de nomeação, entre outros, foram excluídos, pois não caracterizam regulação no sentido stricto.

Navegue pelas métricas e entenda quais são os atos normativos mais populares, os setores da economia com mais restrições, a influência de cada setor no contexto geral dos atos normativos e como as regulamentações evoluíram em questão de complexidade linguística ao longo do tempo.

Métrica de complexidade linguística

Outra forma de analisar as regulações ao longo do tempo é olhando como elas evoluíram em termo de complexidade linguística. A motivação se dá pelo fato de que quanto mais complexa uma regulação é mais tempo e dinheiro serão gastos para sua compreensão e implementação. Além disso, o entendimento dessa regulação pelo público geral também é dificultado.

A complexidade linguística de um texto pode ser analisada pelo nível de entropia, pelo tamanho de cada sentença ou pelo número de termos condicionais. Essas métricas foram utilizadas pelo RegBR e serão detalhadas a seguir.

A primeira métrica usada é o tamanho das sentenças no texto. Para avaliar isso, utilizamos a mediana (valor que separa a metade maior e a metade menor dos dados). A mediana foi usada para diminuir a influência de outliers na métrica.

Para cada setor da CNAE calcula-se a média das medianas em cada ano. A motivação dessa métrica deve-se que de modo geral quanto mais longa uma sentença mais difícil torna-se sua compreensão.

A segunda métrica utilizada é a entropia de Shannon que foi introduzida originalmente no contexto de teoria da informação, mas pode ser expandida para representar a complexidade de um texto. De modo resumido a entropia de um texto representa a frequência que novas ideias ou termos são apresentados no documento, ou seja, se um documento pode ser caracterizado com apenas alguns pontos centrais a entropia desse documento será comparativamente baixa. Por outro lado se um documento possui diversas palavras e ideias distintas sua entropia acabará sendo maior.

A fórmula da entropia é a seguinte:
$$ H(X_j) = -\sum_{i=1}^N p(x_{i,j}) log_2(p(x_{i,j})) $$
em que \( X_j \) indica o j-ésimo documento, \( p(x_{i,j}) \) é a probabilidade (frequência) da palavra \( x_{i,j} \) ocorrendo no documento \( j \) e \( N \) é o número total de palavras no documento \( j \).

Finalmente, a última métrica é a contagem condicional e diz respeito ao número de expressões condicionais no texto. Nesse caso, contabilizou-se a frequência das seguintes expressões, ”se”, ”caso”, ”quando”, ”dado que”, ”desde que”, ”a menos que”, ”a não ser que”, ”embora”, ”ainda que”, ”mesmo que”, ”posto que” e ”em que”. Novamente, a motivação dessa métrica dá-se pelo aumento da dificuldade de compreensão quando expressões condicionais são usadas visto que estas são usadas para relacionar duas ou mais ideias.

Apesar das três métricas tratarem de complexidade, elas medem fatores distintos. Logo, a análise de somente uma das métricas não é indicada mas sim a análise do conjunto de métricas de um setor. Por exemplo, duas das métricas podem aumentar ao longo do tempo enquanto a métrica restante pode ficar constante.

Também é importante ressaltar que o valor das métricas de modo isolado não pode ser usado para concluir acerca da complexidade das regulações de um setor. O valor de cada métrica deve ser considerado em relação ao seu valor passado visto que diferentes indústrias podem ter termos únicos que não são relevantes à outras indústrias. Portanto o objetivo da análise da complexidade linguística deve ser analisado ao longo do tempo.

Pode-se notar que todas as três métricas tiveram aumento ao longo do tempo. A contagem condicional aumentou significativamente até os anos 1980 voltando a cair a partir da metade dos anos 90.

Por outro lado tanto a entropia quanto o tamanho das sentenças começaram a ter um aumento relevante a partir dos anos 2000.

Métricas de condicional, mediana do tamanho da sentença e entropia para todos os setores agrupados usando média móvel de 14 anos para suavizar as curvas
Adm publica, segurança e defesa

Como as métricas de complexidade tratam de fatores diferentes, a melhor forma de analisá-las é em conjunto. De modo geral a complexidade das regulações aumentou ao longo do tempo e isso pode ser visto olhando tanto a entropia quanto o tamanho das sentenças. A contagem condicional apresenta queda ao longo dos últimos anos.

No que diz respeito aos setores da economia, a análise é menos direta visto que as métricas podem variar de diferentes formas. Por esse motivo utilizou-se uma técnica de redução de dimensionalidade para transformar as três métricas em uma só. Em termos mais formais projeta-se as três métricas em uma dimensão apenas.

Essa projeção não é sempre interpretável, ou seja, nem sempre um aumento ou diminuição no valor da projeção pode ser interpretado como regulações se tornando mais ou menos complexas.

Entretanto é possível fazer essa relação se houver concordância na correlação entre as três métricas e a projeção unidimensional. Por exemplo, se houver uma correlação positiva das três métricas em relação à projeção, o aumento de valor da projeção é reflexo do aumento da complexidade daquela indústria.

Projeção da complexidade linguistica para cada setor da economia, por ano

É possível observar que quase todas as indústrias apresentam concordância da projeção com as métricas de complexidade, indicando que houve um aumento de complexidade ao longo do tempo, com exceção do setor de agricultura que apresentou uma diminuição na complexidade linguistica nas ultimas décadas.

CHART_FOOTER_NOTES_REGBR_METRICA

CGCDLatitude UnBPlataforma BrasilinfoGOVUnB