пятница, 9 марта 2018 г.

Калифорния, день седьмой

       Сегодня был последний день конференции Strata в San Jose. Доклады были уже не такие интересные, все больше маркетингового буллшита. Из того что запомнилось:
  • Lessons in Google Search data by Seth Stephens-Davidowitz. Обычно я не хожу на не технические доклады, но он был во время keynotes session, поэтому пропустить его было нельзя. Мастерство докладчика было на высоте, интересный материал.  Суть доклада в том что все мы врём,  и только гуглу доверяем самое сокровенное (через поисковые запросы).  Ну и автор показал что популярность Трампа коррелирует с популярностью националистских настроений в штатах. Возможно в этом и правда есть доля истины. Никто в штатах сейчас не может назвать себя националистом, это все равно что у нас в России прилюдно объявить себя педофилом. Тебя сразу втопчут в грязь. А вот тайно проголосовать за Трампа - можно. Никто же не узнает.
  • Еще один явно политизированный доклад - Graph analysis of 200,000 tweets from Russian Twitter trolls. Не ходил, ничего больше сказать не могу. В общем видно что в Калифорнии Трампа явно не любят.
  • Data science at Slack. Суть этого доклада - не надо пытаться копировать практики Гугла если вы не являетесь гуглом, если перед вами не стоят проблемы стоящие перед гуглом и у вас нет ресурсов гугла. Не надо решать проблему обновления моделей/наследования моделей если у вас все data scientists сидят в одной комнате. Они просто могут голосм друг с другом поговорить. Да, это не автоматизировано, да это не технически совершенное решение, да об этом не расскажешь на конференции - но это работает. Просто и эффективно.
  • Playing well together: Big data beyond the JVM with Spark and friends. В общем доклад про PySpark. Если коротко то: они пытаются сделать чтобы запуск питонячьего кода на Spark был не таким отстойным в плане производительности. Хотя всем ясно что сравняться по уровню производительности с Java/Scala он никогда не сможет. В общем ежик плакал но жрал кактус. Но этот доклад натолкнул меня на размышления: исторически все что связано с обработкой больших объемов данных писалось на Java (Hadoop/Spark предоставляют только java и нтерфейс, apache mahout - это опять таки Java). Но очень многие библиотеки для AI и мат статистики написаны на Python. Взять тот же самый TensorFlow который стал стандартом дефакто в deep learning - это тоже Python.