31 Mar
Um dos grandes problemas que enfrentamos no meu atual projeto na AdaptWorks foi descobrir qual o real encoding de páginas html arbitrárias.
Existem diversas causas para esse problema:
Depois de muito procurar, encontramos um projeto que usa diversas heurísticas para detectar o encoding correto do arquivo.
O ICU (International Components for Unicode) faz todo o trabalho pesado para a detecção do encoding, com mais confiabilidade do que os dados enviados pelo servidor ou especificados pelo criador da página.
Entre os vários usuários do ICU, estão Google, IBM e Apple.
Ele é meio chato de usar, mas vale a pena.
Posts Relacionados:
Acompanhe-nos por
RSS, por Email ou via Twitter.
Veja como ter um desconto no Dreamhost: um excelente servidor web.
Email This Post
3 Responses for "Como descobrir o real encoding de um arquivo em java"
Encoding realmente é um inferno… acho que a tática mais simples é tentar deixar todas as partes com o mesmo encode para tentar diminuir o problema :).
Realmente isso costuma facilitar bastante. Tanto que uma das primeiras decisões tomadas no projeto foi sempre manter tudo em UTF-8. Nosso problema é que dependemos de terceiros e não dá para confiar no encoding que nos passam (tivemos vários casos de nos passarem o encoding errado).
[...] Não foi diferente nesse projeto. Como já é comum, definimos que tudo dentro do projeto deveria estar em UTF-8. Isso funcionou durante muito tempo. Controlamos bem todos os pontos de entrada para garantir que estivesse em UTF-8. Até mesmo em pontos que não tínhamos confiança em qual encoding estavam os dados, usamos (com bastante sucesso) o ICU4J. [...]
Leave a reply