Pull to refresh

Заблокировать Telegram любой ценой

Reading time8 min
Views99K
Весь мир наблюдает за противостоянием Российского государства и маленькой программки Telegram. Как бы забавно ни выглядело для внешнего наблюдателя, но для пользователей Telegram в России это шоу с собственным участием. Судя по всему, начальство поставило перед Роскомнадзором жёсткую задачу: заблокировать Telegram любой ценой.

Четыре дня назад Александр Жаров отвечал на вопрос журналиста: «Представляете, идут боевые действия, и вы говорите: „А вы когда атаку начнёте?“. Ну, в ближайшее время. Когда нападу — не скажу».

Теперь атака началась.

Шаг 1: блокировка IP


Вчера Роскомнадзор забанил 655 352 IP-адресов Amazon — всё ради того, чтобы помешать работе мессенджера в России: «У нас в выгрузку поступила подсеть Amazon, на которую перешёл Telegram, — сказал глава ведомства Александр Жаров. — Дело в том, что третий пункт решения суда предписывает Роскомнадзору и иным юридическим лицам не создавать условия для технического доступа к заблокированному мессенджеру. Мы исполняем решение суда». Сообщается, что под блокировку попали подсети Amazon 52.58.0.0/15, 18.196.0.0/15, 18.194.0.0/15 и 35.156.0.0/14. Позже в реестр внесли ещё подсеть 18.184.0.0/15.

Кроме Amazon, в выгрузку реестра запрещённых сайтов для провайдеров попала подсеть Google 35.192.0.0/12, содержащая более миллиона IP-адресов Google. Таким образом, за один день 16 апреля 2018 года Роскомнадзор заблокировал в России примерно 0,04% всех IP-адресов адресного пространства IPv4 (2³² адресов).
Total votes 108: ↑104 and ↓4+100
Comments650

Распространить сертификат в кратчайшие сроки среди станций Windows любой ценой

Reading time5 min
Views11K

В начале пандемии ’20 появилась задача - распространить корневой сертификат среди домашних персональных компьютеров, так как большое количество сотрудников стали работать по домам.

Сейчас прилетела задача распространить сертификат Минцифры.

В домене все понятно, добавил сертификат в политики GPO и поехали.

А как быть с локальными (домашними) станциями Windows?

Читать далее
Total votes 11: ↑8 and ↓3+5
Comments33

Как Google Docs революционизировал работу с текстом

Level of difficultyEasy
Reading time7 min
Views8.4K

17 лет назад, если вы набирали текст на компьютере, скорее всего, вы делали это в Microsoft Word. Часть чрезвычайно успешного пакета Microsoft Office, Word де-факто был хорошим вариантом программы для составления текста, будь вы автором, офисным работником или студентом. В 2006-м году Google официально запустил бета-версию Google Docs. С тех пор Google Docs уже давно доказал свою профпригодность и стал стандартным инструментом для работы с текстом. Поэтому статья об этом текстовом редакторе в 2023-м году может показаться запоздавшей или ненужной. Но хотелось бы вспомнить, как было до Google Docs и стало после. Легко определить его нынешнее место, хотя гораздо интереснее оценить его первоначальное влияние. Программное обеспечение, которое преобразовало область текстовых процессоров, исключив функции, а не добавив их.

Статус Google Docs сегодня подобен статусу учёного с большим стажем работы, чьи ранние идеи привели к кардинальным переменам в своей области, и который после этого ушёл в бессрочный творческий отпуск. Однако даже после того, как его амбиции пошли на убыль, он остался актуальным и влиятельным. Тем, кого новые поколения копируют и пытаются превзойти.
Читать дальше →
Total votes 29: ↑27 and ↓2+25
Comments23

Классификация текстов в spaCy: пошаговая инструкция

Level of difficultyEasy
Reading time5 min
Views3.7K

Вы узнаете, как реализовать классификатор текстов при помощи библиотеки spaCy, а также несколько полезных лайфхаков, которые помогут ускорить обработку данных.

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments0

Что нужно знать о работе с текстом превью email-писем

Reading time6 min
Views19K


Вы потратили много времени на оптимизацию своих email-писем, и уверены что сообщения почтовой рассылки хорошо написаны, приятно выглядят и, что еще важнее, нормально отображаются в большинстве почтовых клиентов. Проблема в том, что даже самые идеальные письма с большой долей вероятности никогда не будут даже открыты получателем. Они просто попадут в папку «Входящие», где уже и так похоронено огромное количество текста.

Папка входящи сообщений — это первое, что видит пользователь почтовой программы, но это также часто и последний фактор, рассматриваемый при принятии решения о том, открывать ли письмо. Все почтовые клиенты в обязательном порядке показывают, от кого пришло письмо (поле “from”) и тему сообщения. Некоторые программы также показывают небольшой текст превью.

Оптимизация этого текста может приносить отличные результаты и значительно увеличивать процент открытых писем (иногда, до 45%).
Читать дальше →
Total votes 15: ↑14 and ↓1+13
Comments1

Текст любой ценой: WCBFF и DOC

Reading time9 min
Views28K
Несколько позже, чем хотелось, но продолжаем наш разговор о получении текста из разных форматов данных. Мы с вами уже познакомились с тем, как работать с изначально XML-base файлами (docx и odt), прочитали текст из pdf, преобразовали содержимое rtf в plain-text. Теперь перейдём в вкусненькому да сладенькому — формату DOC.
Читать дальше →
Total votes 72: ↑67 and ↓5+62
Comments25

Текст любой ценой: PPT

Reading time3 min
Views5K
Некоторое время назад мы с вами обсуждали получение чистого текста из различных форматов данных: будь то PDF или DOC. В одном из обсуждений был высказано предположение, что при парсинге презентаций PowerPoint я заработаю геморрой или другую страшную болезнь мягкой точки. Что ж, волей судеб мне пришлось доставать текст и из этого «сладенького» формата. Скажу честно, геморрой заработать не удалось, а вот класс для парсинга презентаций вышел.
Читать дальше →
Total votes 54: ↑46 and ↓8+38
Comments25

Текст любой ценой: Miette

Reading time3 min
Views2.7K
Да, вы не ошиблись, и это не дежавю. Вы наверняка когда-то (если завсегдатай) видели этот топик. С тех пор прошло много времени, а мне продолжают ходить письма с вопросами и просьбами о совете на тему чтения текстовой информации из бинарных форматов данных. А это значит, что тема до сих пор актуальна, интересна для программирующей общественности.

За этот год (а ведь и вправду прошло больше года) я поменял место работы и занимаюсь совершенно другими вещами и давно уже не программирую (много не программирую, если быть точным) на PHP. Новый проект обязал меня совершенствоваться в python'е (и ощутить его силу), поэтому однажды воскресным вечером было решено переписать и, главное, улучшить некоторые из своих библиотек для чтения текста. Сегодня я представлю на суд публики молодой opensource-проект Miette («вкусняшка», если переводить с французского), который призван (в каком-никаком будущем) читать файлы пакета Microsoft Office.

Основной задачей Мьетт будет в первую очередь чтение чистого текста из офисных форматов, но в этот раз мне хотелось бы пойти дальше и сотворить невозможное: заставить парсер читать форматирование (хотя бы минимальное). Задача сложная, но вполне посильная, если будет время по вечерам и интерес (а возможно посильная помощь в виде тестирование и совместной разработки) со стороны страждущего народонаселения. Но это всего лишь планы и, так сказать, хобби.

Естественно python во многом отличается от PHP и, на мой взгляд, имеет несколько больший функционал, поэтому и принцип построения библиотек в проекте несколько другой, нежели старая «поделка» на PHP. В данном случае было решено запретить себе, как разработчику и заказчику в одном лице, загружать какие-либо большие блоки в память. Мьетт читает данные постепенно, по требованию, как это делает сам Word. Это делает его легковесным и нетребовательным к оперативной памяти. В будущем, я постараюсь пройти исходные profiler'ем и найти узкие горлышка, которые стоит оптимизировать дальше.

Идём дальше?
Читать дальше →
Total votes 37: ↑36 and ↓1+35
Comments17

Препарируем Compound File Binary format (CFB), или начинаем парсить DOC

Reading time5 min
Views6.8K
Compound File – это довольно сложный универсальный бинарный формат файлов, лежащий в основе форматов офисных документов до MS Office 2007 (doc, xls, ppt, msg, …), отчасти MS Office 2007+ (например vbaProject.bin внутри xlsm) и других.

Под катом краткое описание как Compound File устроен внутри, которое, надеюсь, будет полезно как ликбез и поможет читателю лучше понимать что делают утилиты или про что пишут в статьях про CFB файлы.


Читать дальше →
Total votes 13: ↑13 and ↓0+13
Comments7

Текст любой ценой: DOCX и ODT

Reading time4 min
Views62K
Недавно возникла задача получения чистого текста из различных форматов документооборота — будь-то документы Microsoft Word или PDF. Задача была выполнена даже с чуть более широким списком возможных входных данных. Итак, этой статьёй я открываю список публикаций о чтении текста из следующих типов файлов: DOC, DOCX, RTF, ODT и PDF — с помощью PHP без использования сторонних утилит.

Читать дальше →
Total votes 113: ↑98 and ↓15+83
Comments60

Текст любой ценой: PDF

Reading time12 min
Views89K
Продолжаем разбирать текстовые форматы на предмет получения текста. Итак, обещанный ранее PDF.

С portable document format'ом не всё так просто, как DOCX или ODT, что мы рассматривали в прошлый раз, но всё же это всё ещё изначально текстовый, а не бинарный формат. Вы удивлены? Тогда давайте посмотрим на то, что там внутри. Дальше действительно много текста.

Читать дальше →
Total votes 77: ↑75 and ↓2+73
Comments20

Терпение и труд весь текст извлекут

Reading time10 min
Views7.9K

Во время учебной сессии (май-июнь и декабрь-январь) пользователи просят нас проверить на наличие заимствований до 500 документов каждую минуту. Документы приходят в файлах различных форматов, сложность работы с каждым из которых различна. Для проверки документа на заимствования нам сперва необходимо извлечь из файла его текст, а заодно и разобраться с форматированием. Задача — реализовать качественное извлечение полутысячи текстов с форматированием в минуту, при этом падать нечасто (а лучше не падать совсем), потреблять мало ресурсов и не платить за разработку и эксплуатацию конечного детища половину галактического бюджета.


Да-да, мы, конечно, знаем, что из трех вещей — быстро, дешево и качественно — нужно выбрать любые две. Но самое противное, что в нашем случае мы ничего не можем вычеркнуть. Вопрос в том, как хорошо у нас это получилось...



Источник изображения: Википедия

Читать полностью
Total votes 27: ↑23 and ↓4+19
Comments9

Текст любой ценой: PPT. Дубль второй

Reading time1 min
Views1.4K
Недавно я анонсировал свой вариант чтения презентаций PowerPoint с помощью чистого PHP. Тогда я с сожалением отметил, что класс сырой и нуждается в доработке. Долго ли, коротко ли, но ошибки были найдены — теперь файлы читаются заметно лучше, без всякой грязи. Надеюсь, вам пригодятся мои наработки.
Читать дальше →
Total votes 42: ↑39 and ↓3+36
Comments13

Текст любой ценой: RTF

Reading time14 min
Views86K
Что ж продолжим наши изыскания на предмет получения текста из различных форматов данных. Не так давно мы с вами научились вытаскивать текст из zipped-xml-based файлов (odt и docx), а также, в начале этой недели, из pdf. Сегодня мы продолжим с обещанным rtf.

Rich Text Format (он же rtf), вы могли бы подумать, достаточно забытый, хотя и не очень сложный формат представления текстовых данных. Что ж, относительно несложный для получения текста, но за свою историю: от своей первой версии до текущей 1.9.1 — он приобрёл под 300 страниц официально документации и огромное количество надстроек, которые в большей степени нам будут мешать при получении plain text'а. Попробуем их обойти…
Читать дальше →
Total votes 67: ↑60 and ↓7+53
Comments49

Преобразование офисных файлов в текст

Reading time4 min
Views5K

Представление документа в виде простого текста понадобится для анализа его содержимого: индексирования и поиска, классификации, предварительной проверки.

В нашем случае, стояла задача предварительного анализа (скоринга) документов по их содержимому. Верхнеуровневый процесс обработки документов построен с использованием MS Power Automate, поэтому конвертор нужно было реализовать в виде некоего облачного сервиса, доступного через HTTP.

В результате получился очень компактный сервис экстракции текста из офисных файлов, который успешно работает у нас уже несколько месяцев. Под катом - краткое описание сервиса, ссылка на репозиторий и другие полезные статьи по теме.

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments2

Манулы и мануалы. Как искоренить опечатки в технических текстах

Reading time6 min
Views5.3K

Авторов технических текстов на каждом шагу подстерегают ловушки: орфографические омуты, пунктуационные овраги, горы фактических неточностей. Все эти препятствия, хоть и грозные, но вполне знакомые. У тех, кто много пишет, уже есть известные тропки, перевалы и мостики. По ним авторы успешно обходят все неприятности на пути к заветной цели: качественному и полезному тексту.

Но есть и ещё один тип ошибок: мелких, незначительных, вездесущих. Они как микроскопические пылинки проникают в каждый текст. Автор может часами выверять фактические данные и полировать до сияющего блеска формулировки. Но в тончайший прецизионный часовой механизм документа всё равно проникнут вредные песчинки. Имя им — описки.

Можно ли как-то автоматизировать процесс отлова таких мелких назойливых «багов», чтобы раз и навсегда забыть о них и сосредоточиться на более важных вещах? В этой статье я хочу поделиться с вами несколькими способами борьбы с такими «вредителями», которые сам применяю на практике. А заодно перечислю самые забавные ляпы, которые я вылавливал в своих текстах.

Читать далее
Total votes 30: ↑27 and ↓3+24
Comments41

Docs as Code для художественной литературы. Делаем творческий сайт ребенка с помощью MkDocs

Level of difficultyEasy
Reading time13 min
Views7.6K


Docs as Сode — подход к работе с текстами, подразумевающий написание текста как кода:


  • в простом текстовом редакторе или IDE;
  • с использованием системы контроля версий;
  • с CI / CD / Code Review.

В настоящее время Docs as Code широко применяется при работе с технической документацией, давая техническим писателям и проектным командам массу удобств и преимуществ.


Но что если пойти дальше, попробовать такой подход не с техническими, а с художественными текстами? Что если автор — не технарь и не айтишник? Просто юный начинающий писатель, который пробует писать прозу и стихи ручкой на бумаге, и надеется познакомить широкую публику со своим творчеством?


В этой статье я расскажу о таком эксперименте (забегая вперед, удачном). Моей дочери 11 лет, она пишет сказки, стихи и рассказы. Чтобы поддержать ее увлечение, я помог ей создать литературный сайт, используя подход Docs as Code. Она успешно освоила основы Markdown и Git. Сейчас она самостоятельно публикует новые произведения и обновляет новости на своем сайте https://lib-beliakova.github.io/.

Читать дальше →
Total votes 44: ↑44 and ↓0+44
Comments17

Изучаем «МойОфис Документы». Мобильное приложение для работы с текстами и таблицами

Reading time6 min
Views7.6K

Год назад стартовала программа предустановки отечественного ПО. Согласно нашему совместному исследованию с BCGroup, 57% опрошенных лояльны к программе предустановки, причем по сравнению с прошлым годом этот показатель вырос на 13%. Из опрошенных 3000 человек 35% заявили, что благодаря программе они начали активнее использовать отечественное ПО, а 12% отметили, что всегда предпочитали российские решения.

Перечень приложений, предустанавливаемых на гаджетах в России, включает в себя два продукта МойОфис — отечественного разработчика софта для работы с документами и коммуникаций. Их частные пользователи скачали уже более 11 млн раз. О настольных редакторах «МойОфис Стандартный. Домашняя версия» мы уже рассказали в этой статье. Сегодня же на практике рассмотрим «МойОфис Документы». Приложение позволяет открывать, редактировать, создавать текстовые файлы и таблицы на всех современных смартфонах и планшетах. Подробнее читайте под катом.

Читать далее
Total votes 23: ↑21 and ↓2+19
Comments36

Определение типа личности по тексту (на замену закрытому IBM Watson Personality Insights)

Reading time16 min
Views5.3K


Некоторое время назад к нам обратился заказчик с не совсем обычной задачей — воспроизвести сервис IBM Watson Personality Insights, который анализировал текст, написанный человеком и определял по нему ряд личностных характеристик. Задача возникла по причине того, что бизнес заказчика основывался на этом сервисе, в то время как IBM объявила, что сервис вскоре станет недоступен. В этой статье расскажем, что делал этот сервис и чем закончилась задача воспроизведения его функционала.
Читать дальше →
Total votes 5: ↑5 and ↓0+5
Comments18

Google Docs Add-on. Расширяем возможности редактора Google Docs

Reading time8 min
Views36K
На днях Google анонсировал выход новой платформы, позволяющей разработчикам создавать приложения, работающие внутри Google Docs и расширяющие базовый функционал Google Docs редактора.
Разберемся что это, как это работает и напишем небольшое приложение которое позволит нам переводить текст документа не выходя из Google Docs.
Читать дальше →
Total votes 28: ↑27 and ↓1+26
Comments4
1
23 ...