.NET Tip #6: Čisté odstranění diakritiky

Tomáš Jecha

Vývojářský blog Tomáše Jechy

https://www.jecha.net
@jechtom

Podle kategorie

Čas od času potřebujeme v textovém řetězci nahradit znaky diakritiky za jejich ekvivaltní normální. Většinou se to řeší výčtem všech znaků a následným procházením celého textu a nahrazováním. Málokdo ale ví, že unicode znaková sada nabízí řadu funkcí se kterými lze snadno diakritiku oddělit a zrušit. Sepsaná funkce pro Visual Basic vypadá takto:

Public Function RemoveDiacritism(ByVal Text As String) As String
    Dim stringFormD = Text.Normalize(System.Text.NormalizationForm.FormD)
    Dim retVal As New System.Text.StringBuilder()
    For index As Integer = 0 To stringFormD.Length - 1
        If (System.Globalization.CharUnicodeInfo.GetUnicodeCategory(stringFormD(index)) <> Globalization.UnicodeCategory.NonSpacingMark) Then
            retVal.Append(stringFormD(index))
        End If
    Next
    Return retVal.ToString().Normalize(System.Text.NormalizationForm.FormC)
End Function

A kód pro C#:

public static string RemoveDiacritism(string Text)
{
    string stringFormD = Text.Normalize(System.Text.NormalizationForm.FormD);
    System.Text.StringBuilder retVal = new System.Text.StringBuilder();
    for(int index = 0; index < stringFormD.Length ; index ++)
    {
        if(System.Globalization.CharUnicodeInfo.GetUnicodeCategory(stringFormD[index]) != System.Globalization.UnicodeCategory.NonSpacingMark)
            retVal.Append(stringFormD[index]);
    }
    return retVal.ToString().Normalize(System.Text.NormalizationForm.FormC);
}

Celé je to velmi jednoduché. Nejdříve se normalizuje text do podoby D. To znamená, že diakritické znaky, které jsou v unicode označovány jako NonSpacingMark (přivazují se k předešlému písmenu), se umístí do textu samostatně (například "něco" se převede na "neˇco"). Pak stačí jen vše projít a tyto NonSpacingMark znaky vyházet.

hodnocení článku

0 Hodnotit mohou jen registrované uživatelé.

Tomáš Jecha, MVP, MCSD

I'm .NET team lead, software architect and lector. I have also cofounded company dotNETcollege and community portal dotNETportal.cz. I love writing maintainable software focused on business goals, helping team, learning something new every day and sharing knowledge. I worked on lot of interesting projects with variety of customers like Alza, Microsoft, Avast and many more. For community leadership I have been recognized with many Microsoft MVP awards since 2009.

https://www.jecha.net

blog autora

@jechtom

DotNETcollege: Mohlo by vás zajímat

MAUI - multiplatformní aplikace v .NETu

Úvod do XAML

Vyvíjíme univerzální aplikace pro Windows

Kontejnery, Docker a Azure Kubernetes Service (AKS)

TypeScript

Testování v prostředí .NET - unit testy a integrační testy

Kontinuální integrace pomocí TeamCity

Entity Framework pro pokročilé

Xamarin - vývoj multiplatformních mobilních aplikací

Javascript pro mírně pokročilé

Mohlo by vás také zajímat

Nový příspěvek

Diskuse: .NET Tip #6: Čisté odstranění diakritiky

Melo by to odstranit i non-url znaky (uvozovky apod?)

nahlásit spam

-1 / 1

odpovědět

8. 10. 2008 14:08

Tomáš Jecha, MVP, MCSD

860 1596

Zkoušel jste to? :)

Podle toho co jsem psal, by mělo být jasné, že nikoliv. Uvozovky se přeci neváží na předchozí znak a proto tam zůstanou. Číštění od znaků nepovolené v adrese se dělá úplně jinak. S unicodem to nemá nic společného.

nahlásit spam

0 / 2

odpovědět

Ja som to skúšal, ale napríklad pre ž a ť to nefunguje.

Pred nimi sa mi zobrazuje vždy nejaký štvorček.

nahlásit spam

-1 / 1

odpovědět

otázka připomínka kladné hodnocení záporné hodnocení

Nadpis:

Antispam:

Komu se občas házejí perly?

Příspěvek bude publikován pod identitou anonym.

Nyní zakládáte pod článkem nové diskusní vlákno.
Pokud chcete reagovat na jiný příspěvek, klikněte na tlačítko "Odpovědět" u některého diskusního příspěvku.

Nyní odpovídáte na příspěvek pod článkem. Nebo chcete raději založit nové vlákno?

Administrátoři si vyhrazují právo komentáře upravovat či mazat bez udání důvodu.
Mazány budou zejména komentáře obsahující vulgarity nebo porušující pravidla publikování.

Pokud nejste zaregistrováni, Vaše IP adresa bude zveřejněna. Pokud s tímto nesouhlasíte, příspěvek neodesílejte.

dotNETportal.cz

Tomáš Jecha

Podle kategorie