Был в Сети 23 сент. 2025 г., 03:08

Мультиблог

4X_Pro

Перово, Москва, Россия
me@4xpro.ru
x4_pro
XXXXPro

Кратко о себе: Web-разработчик. Пишу на PHP, Python, JavaScript. Знаю Ruby и Go, со студенческих времён более-менее помню C и asm. Специализируюсь на ускорении загрузки сайтов и разработке ботов для Telegram. Linuxоид (использую Debian+LXDE). Сторонник IndieWeb, slow lifer.

Перово, Москва, Россия
me@4xpro.ru
XXXXPro

Социальные сети

Новости сайта в Telegram

t.me/4x_pro

Компьютерное

Выделение хештегов из текста

4X_Pro 24 февраля 2024 г. в 18:37

С помощью уже упоминавшегося класса IntlBreakIterator можно легко выделить из текста хеш-теги. Для этого создадим итератор не по предложениям, а по словам с помощью: createWordInstance. Итерация с помощью IntlBreakIterator выдаёт смещения границ слов, что в данном случае не очень удобно. Поэтому воспользуемся методом IntlBreakIterator::getPartsIterator. Он создаёт ещё один итератор, который возвращает уже непосредственно сами слова. Далее, когда встретится символ # (он в режиме WordInstance считается отдельным словом), запоминаем этот факт и следующее слово обрабатываем как хеш-тег. Вот пример кода: Проверка mb_strlen($item)>1 нужна для отработки случаев вида #! #;,так как в этом случае знаки препинания рассматриваются как отдельные слова. Кроме того, хештеги из одной буквы обычно не имеют смысла.
Читать далее…

Написать комментарий

Задать вопрос

Цитировать
Копировать
Поделиться
Отправить ВК