Програма/начин за сортиране на най-повтарящите се думи в текст на БГ език... ?

lowriderzzz

Well-Known Member
Здравейте!


Търся програма или оналйн софтуер/сайт, добавка, екстеншън и т.н., която когато пейстна даден текст (от MS Word) да ми highlight-не и да ми класира по брой най-повтарящите се думи.


Текста е на български, за това ще трябва да има кирилица.


Да подчертая не искам да ми highlight-ва само определени думи - това мога да си го направя в Word с Replace опцията. Идеята е да ми каже, кои са най-често срещаните думи в дадения текст и да ги сортира по брой повторения.


А по възможност да може да й се каже да не включва числа (защото има дати и разни цифри в текса и т.н.)
Спомням си че преди години бях виждал нещо подобно - мисля, че беше със SEO насока за проверка на уникалността на текст и т.н., но не мога да се сетя къде го гледах и дали изобщо е същото което търся сега.


Някой ако се сеща за подобна кирия, моля да сподели.


Благодаря :)
 
От: Програма/начин за сортиране на най-повтарящите се думи в текст на БГ език... ?

Това пробвал ли си го?

http://kesor.net/keyword-density/
 
От: Програма/начин за сортиране на най-повтарящите се думи в текст на БГ език... ?

Това пробвал ли си го?

http://kesor.net/keyword-density/

Като основна идея става но много забива като му сложа голям тескт. Може и от компа ми да е.

Благодаря все пак :)
 
Последно редактирано:
От: Програма/начин за сортиране на най-повтарящите се думи в текст на БГ език... ?

Като основна идея става но много забива като му сложа голям тескт. Може и от компа ми да е.

Благодаря все пак :)

Тежичка програма е, но пък на мен ми е вършила работа. Иначе товари доста, да... особено моя изстрадал лаптоп, който плаче за преинсталация от поне 2 години. :)
 
От: Програма/начин за сортиране на най-повтарящите се думи в текст на БГ език... ?

Като за без пари толкова (написах го набързо):

Код:
<!DOCTYPE html>
<html>
    <head>
        <title>Word counter</title>
    </head>
    <body>
        <form method='post'>
            <textarea cols='80' rows='15' name='text'></textarea>
            <br />
            <input name='ex_d' type='checkbox' checked />Премахни цифрите.
            <br />
            Минимален брой знаци в дума: <input name='min' type='text' />
            <br /><br />
            <input type='submit' value='Брой думите!'>
        </form>
<?php
    if (!empty($_POST['text'])){
        echo("<br /><br /><table cellspacing='10' cellpadding='10'><tr><td>Дума</td><td>Брой</td></tr>");
        if ($_POST['ex_d'] == 'on'){
            $text_ch = preg_replace('@\d+@s', '', $_POST['text']);
        }
        else{
            $text_ch = $_POST['text'];
        }
        $words_first = preg_split('@\W+@su', preg_replace('@^\W+(.*?)\W+$@su', "$1", $text_ch));
        $words = array();
        foreach($words_first as $word){
            if (mb_strlen($word) == 0 || mb_strlen($word) < (int)@$_POST['min']){
                continue;
            }
            $word = mb_strtolower($word);
            (int)@$words[$word]++;
        }
        arsort($words);
        foreach($words as $word => $n){
            echo("<tr><td>$word</td><td>$n</td></tr>");
        }
        echo("</table>");
    }
?>
    </body>
</html>

* Направих леки подобрения.
 
Последно редактирано:
От: Програма/начин за сортиране на най-повтарящите се думи в текст на БГ език... ?

Да мерси - тези сайтове със семантичния анализ стават.

Благодаря и на unwise за кода. Ще го пробвам.

Няма нужда от повече препоръки, тези вършат работа за сега.

Поздрави :)
 

Горе