Выделение хештегов из текста

С помощью уже упоминавшегося класса IntlBreakIterator можно легко выделить из текста хеш-теги. Для этого создадим итератор не по предложениям, а по словам с помощью: createWordInstance. Итерация с помощью IntlBreakIterator выдаёт смещения границ слов, что в данном случае не очень удобно. Поэтому воспользуемся методом IntlBreakIterator::getPartsIterator. Он создаёт ещё один итератор, который возвращает уже непосредственно сами слова. Далее, когда встретится символ # (он в режиме WordInstance считается отдельным словом), запоминаем этот факт и следующее слово обрабатываем как хеш-тег.

Вот пример кода:

Проверка mb_strlen($item)>1 нужна для отработки случаев вида #! #;,так как в этом случае знаки препинания рассматриваются как отдельные слова. Кроме того, хештеги из одной буквы обычно не имеют смысла.

Цитировать

Компьютерное

4X_Pro 24 февраля 2024 г. в 18:37

Выделение хештегов из текста

Написать комментарий:

4X_Pro 24 февраля 2024 г. в 18:37

Выделение хештегов из текста

Написать комментарий:

4X_Pro 24 февраля 2024 г. в 18:37