Posledních pár měsíců se nějaký spambot neustále snaží posílat do našich fór (zejména pod články staršího data) spam. Otravuje mě to a spoustu lidí jistě taky, ale nemám čas se tím zabývat. Nepomáhá ani Recaptcha – možná si někdo najal nějakého Inda, aby to louskal, to dnes není problém.
Byl bych velice zavázán osobě, které by se chtělo napsat nějakou chytrou metodu na skoncování s tímto spamem. Blacklistování konkrétních slov asi nemá smysl, to už jsem zkoušel – jakmile jim jedno zakážete, najdou si jiné, nebo do něj dají úmyslně překlep – a bohužel byli trpělivější než já.
Predikce by měla používat nějakou statistiku - rozsekat text na slova, zjistit četnosti jednotlivých slov a podle toho určit pravděpodobnost, s jakou je to spam. Nemusí se učit za běhu, stačí jí statistiku postavit z následující databáze (posledních 1000 příspěvků pod články, co nejsou odpovědi na jiné příspěvky (spammer odpovídat neumí, posílá pořád nové a nové).
Pokud mohu poprosit, ideálně aby to fungovalo v .NET 2.0. Pokud potřebujete nějaká další data, napište mi e-mail a domluvíme se.
Mimochodem dala by se z toho udělat pěkná open source knihovna.